MuZero, новый искусственный интеллект от DeepMind, способен стать мастером в различных играх, изначально не зная их правил

Игра в шахматы

На страницах нашего сайта мы в свое время уделили достаточно много внимания компании DeepMind из Лондона, которая является филиалом Alphabet, другими словами, компании Google. Эта компания получила широкую известность в 2016, когда разработанная ею система искусственного интеллекта AlphaGo, самообучившись на миллионах виртуальных игр, приобрела такую степень мастерства в китайской игре Го, что ей не смог серьезно противостоять даже чемпион мира по этой игре. В 2018 году более совершенная система искусственного интеллекта AlphaZero добилась подобных результатов сразу в трех типах логических игр, Го, шахматах и японских шахматах Сеги. А теперь компания DeepMind представляет свое очередное творение, систему MuZero, которой для обучения и приобретения мастерства в какой-нибудь игре даже не требуется изначальное знание правил этой игры.

Обучение системы MuZero начинается с того, что система делает первый шаг (или ход), изучая варианты, которые позволяют правила игры. Одновременно с этим система анализирует “бонусы”, предоставляемые игрой за правильное действие, в случае игры “Pac-Man” это съеденные желтые точки, а в случае шахмат – это приближение к выигрышному финалу. После этого система начинает совершенствовать свои навыки, постоянно атакуя противника и пытаясь получить большее количество бонусов.

Одновременное изучение правил и совершенствование уровня игры позволяет системе MuZero продемонстрировать огромное превосходство в эффективности и “экономичности” использования данных по сравнению с предыдущими версиями этой системы. Однако, это имеет и обратную сторону, для полноценного обучения системе MuZero требуются достаточно большие вычислительные ресурсы. Но, уже после обучения система нуждается в малом количестве вычислительных ресурсов, она способна быстро принимать правильные решения, даже используя весьма ограниченные аппаратные средства не самого мощного из существующих смартфонов.

Системы DeepMind разных поколений

Реализованный метод самообучения уже достаточно близок к основной цели компании DeepMind, к созданию системы искусственного интеллекта, способной самообучаться подобно тому, как это делают маленькие дети. Более того, такой метод обучения идеален для обучения искусственного интеллекта в условиях, когда конечная цель или задача в целом не могут быть описаны достаточно точно и четко. А большинство проблем, решением которых в реальном мире предстоит заняться искусственному интеллекту в будущем, как раз и относятся к такому классу.

Параллельно с обучением играм, специалисты компании DeepMind начали делать первые попытки использования искусственного интеллекта в практических целях. “Сейчас мы исследуем возможности системы MuZero в области эффективного сжатия видео и в других областях, в которых по многим причинам нельзя было использовать системы предыдущих поколений, такие, как AlphaZero” – рассказывает Томас Хьюберт (Thomas Hubert), ведущий исследователь.

Другие области практического применения подобных универсальных систем искусственного интеллекта включают в себя технологии автономного вождения для автомобилей-роботов, разрабатываемые еще одной “дочкой” Alphabet, компанией Waymo, область биохимии, в которой впечатляющие результаты продемонстрировала недавно “родственная” программа AlphaFold, и многое другое.