Компания Google на конференции Google I/O представила новое семейство генеративных ИИ-моделей Gemini Omni, предназначенных для создания контента из любых типов входных данных. Пока что доступна только облегченная версия Omni Flash. Это мультимодальная ИИ-модель, которая способна генерировать видеоролики на основе текста, фотографий, аудио или других видеозаписей.
Для генерации видео Omni Flash использует возможности других продуктов Google, включая Gemini Nano, Veo и Genie. Алгоритм объединяет мультимодальные возможности с глубоким пониманием законов физики и реального мира.
Ключевым отличием Omni Flash от существующей модели Veo является функция преобразования одного видео в другое. Алгоритм не просто генерирует визуальный ряд, но и позволяет редактировать исходные кадры с помощью естественного языка в диалоговом формате, сохраняя логику сцены и последовательность действий персонажей при каждом новом запросе. Например, можно отснять простое видео без монтажа и попросить ИИ добавить нужную графику.
Каждый запрос накладывается на предыдущий — физика, персонажи, повествование и другие составляющие видеоролика остаются, нейросеть не создает его с нуля.
На данное время нейросеть может создавать видео со звуком продолжительностью до 10 секунд, однако компания уже работает над увеличением этого лимита. В целях безопасности Google пока что ограничивает алгоритм в возможности изменять чужую речь на видео, а все сгенерированные ролики автоматически помечаются невидимым цифровым водяным знаком SynthID для проверки подлинности контента.
Модель Gemini Omni Flash уже доступна для подписчиков тарифов Google AI Plus, Pro и Ultra через приложение Gemini и сервис Google Flow. Также на этой неделе откроется бесплатный доступ для пользователей в приложениях YouTube Shorts и YouTube Create App.







