В МФТИ помогли создать новую модель стереозрения для роботов

Международный научный коллектив с участием сотрудников Московского физико-технического института (МФТИ) разработал новую технологию стереофонического зрения, определяющую расстояние до объекта. Об этом сообщили в пресс-службе МФТИ.

«Коллектив с участием ученых МФТИ представил новую технологию стереозрения Un-ViTAStereo, которая определяет расстояние до объектов, не используя для обучения дорогостоящие лидары и ручную разметку. Она точна даже там, где «слепнут» современные алгоритмы: перед гладкими стенами, в густой листве или тумане. Технология может применяться в том числе для безопасности беспилотных автомобилей и автономных роботов», — отметили в пресс-службе.

Мозг сопоставляет два немного разных изображения — от левого и правого глаза — и на основе разницы между ними строит трехмерную карту мира. Стереосистемы роботов и беспилотных автомобилей устроены подобно зрению человека, но вместо глаз они используют камеры, а вместо мозга — алгоритмы. Этот механизм срабатывает не везде: например, при встрече с идеально белой стеной или зоной с повторяющимися узорами алгоритму не хватает визуальных зацепок, чтобы верно сопоставить изображения.

Новый фреймворк для обучения нейросетей, разработанный международной командой ученых, помогает преодолеть этот барьер. Они вводят в процесс обучения «наставника» — модель Depth Anything V2. Она умеет оценивать относительную глубину с помощью «одного глаза» — одного изображения. Depth Anything V2 не измеряет метры, но распознает тени, перспективу и перекрытия объектов и почти безошибочно определяет, что ближе, а что дальше. Алгоритм отбирает только те предсказания стереосистемы, которые согласуются с ее подсказками, и учит нейросеть повышать точность.

Система работает в три этапа. Сначала алгоритм оценки диспаратности (смещения) (DDCV) проверяет каждый пиксель, соответствуют ли его данные подсказкам «наставника», и помечает их зеленым (верно) и красным (ошибка) цветом. Затем функция потерь на основе локального ранжирования глубины (LDR) ищет вокруг каждой красной точки несколько зеленых соседей. Подобно маякам, они задают границы и сдвигают красный пиксель на нужное место. Наконец, алгоритм «Двойная функция потерь сглаживания диспаратности» (DDS) помогает построить контуры. Он убирает цифровой шум там, где «наставник» говорит, что цвет должен быть равномерным, и наоборот.

На основе этой технологии ученые планируют создать самообучающуюся нейросеть, которая сможет адаптироваться под специфику разных сред — от городских улиц до заводских цехов. Результаты исследования опубликованы в журнале IEEE Transactions on Circuits and Systems for Video Technology.

Текст | Text

Имя | Name Email

Поиск на Upakovano.ru

Логические операторы.