ИИ теперь может перемещаться по незнакомой среде без карты

Исследователи из Facebook AI разрабатывают новый алгоритм обучения с подкреплением под названием DD-PPO. Он может перемещаться по сложным средам, используя только данные компаса, RGB-D камеру и GPS.

Разработка интеллектуальных машин, которые умно взаимодействуют с физическим миром, была долгосрочной целью сообщества ИИ. Главная задача состоит в том, чтобы научить эти машины так, чтобы они могли эффективно перемещаться по сложной, незнакомой среде без использования какой-либо карты.

Как правило, карты реального мира устаревают в течение нескольких месяцев, поскольку здания и сооружения меняются, а объекты перемещаются. Вот почему совершенно необходимо создать ИИ для физического мира, который может перемещаться без карты.

Помня об этом, исследователи из Facebook AI разработали новый алгоритм обучения с подкреплением (RL), который эффективно решает задачу точечной навигации с использованием только данных компаса, камеры RGB-D и GPS. Этот крупномасштабный алгоритм называется DD-PPO (децентрализованная распределенная проксимальная оптимизация политики).

Новая RL распределенная архитектура хорошо масштабируется

В настоящее время системы, основанные на машинном обучении, способны превзойти человеческих экспертов в различных сложных играх. Но поскольку эти системы опираются на огромный объем обучающих выборок, то их построение без масштабного, распределенного распараллеливания совершенно невозможно.

Современная распределенная архитектура обучения с усилением – включает в себя тысячи рабочих (ЦП) и сервер с одним параметром – плохо масштабируется. Вот почему исследователи предложили синхронную, распределенную технику обучения с подкреплением.

DD-PPO работает на нескольких машинах и не имеет сервера параметров. Каждый работник (ЦП) переключается между накоплением опыта в моделируемом окружении с ускорением на GPU и оптимизацией модели. В явном состоянии связи все работники синхронизируют свои обновления с моделью. Другими словами, распределение является синхронным.

Все работники моделируют агента, выполняющего навигацию по точечным целям, а затем оптимизируют модель и синхронизируют свои обновления | Вот как данные обмениваются во время обучения с DD-PPO

Используя этот подход, DD-PPO продемонстрировал почти линейное масштабирование: ему удалось добиться ускорения в 107 раз на 128 графических процессорах по сравнению с последовательной реализацией.

Почти идеальная точечная навигация

При навигации по точке-цели агент устанавливается в произвольном начальном положении / ориентации в незнакомой среде и получает задание перейти к целевым координатам без использования какой-либо карты. Он может использовать только компас, GPS и либо RGB или RGB-D камеры.

Исследователи использовали функцию масштабирования DD-PPO для обучения агента за 2,5 миллиарда шагов, что эквивалентно 80-летнему опыту человека. Вместо месяцев обучение было завершено менее чем за три дня с 64 графическими процессорами.

Результаты показали, что 90% пиковой производительности были получены в первые 100 миллионов шагов с меньшим количеством вычислительных ресурсов (8 графических процессоров). С миллиардами шагов опыта, агент достигает успеха 99,9%. Напротив, предыдущие системы достигли 92% успеха.

Агент отступает после выбора неправильного пути, чтобы добраться до своей целевой позиции

Применение

Эти агенты ИИ могут помочь людям в физическом мире. Например, они могут показывать соответствующую информацию пользователям, носящим очки дополненной реальности, роботы могут извлекать предметы со стола наверху, а системы искусственного интеллекта могут помочь людям с нарушениями зрения.

Модели, построенные в этом исследовании, могут работать в обычных условиях, таких как внутри лабораторий и офисных зданий, где дополнительные точки данных (карты и данные GPS) недоступны.

Несмотря на то, что модель ImageNet превосходит предварительно обученные сверхточные нейронные сети и может служить универсальным ресурсом, предстоит еще многое сделать для разработки систем, которые учатся ориентироваться в сложных средах. Исследователи в настоящее время изучают новые подходы к реализации точечной навигации по RGB.

Источник

Мы рекомендуем

12 May 2023

ИИ теперь может перемещаться по незнакомой среде без карты

Новая RL распределенная архитектура хорошо масштабируется

Почти идеальная точечная навигация

Применение

Мы рекомендуем

Who Made The Most Innovative Mash?! | Season 12 | Moonshiners | Discovery

Buster's Ball Drop MiniMyth

Diving with Mako Sharks | Shark Week

Is Our Civilization About To Collapse? | Answers With Joe