Подразделение Google по исследованию искусственного интеллекта DeepMind представила Genie 2 — вторую версию нейросети, которая способна генерировать 3D-видеоигры по текстовому описанию. Оригинальная Genie была выпущена в феврале этого года и могла генерировать виртуальные 2D-миры из синтезированных изображений.
По словам разработчиков, Genie 2 способна генерировать виртуальные миры, включая последствия любых действий в них и взаимодействие между объектами. Пользователь может описать желаемый мир, выбрать подходящий рендеринг и вступить в новое окружение. На каждом шагу человек/агент совершает действие (движение мыши, нажатие клавиши на клавиатуре), а Genie 2 имитирует его последствия. Можно даже создавать неигровых персонажей (NPC).
Для генерации виртуального мира Genie 2 достаточно одного изображения, созданного с помощью нейросети Imagen 3 или любой другой, а также текстовая подсказка того, что должно в нем содержаться и происходить.
Пока что Genie 2 может генерировать последовательные интерактивные миры продолжительностью около минуты, хотя большинство показанных приведенных примеров длятся 10−20 секунд. Посмотреть примеры созданных нейросетью миров можно по этой ссылке. Разработчики отмечают, что пока исследование находится на ранней стадии и требует значительных улучшений в областях возможностей агентов и генерации среды.