Google объяснил, как разговаривать с ИИ для создания видео 

44

03.06.2026

Google DeepMind опубликовала подробное руководство по созданию запросов для новой модели Gemini Omni Flash – системы, способной генерировать и редактировать видео на основе текста, изображений, аудио и уже существующих роликов. На первый взгляд это очередная инструкция для пользователей ИИ. На деле документ показывает, как стремительно меняется логика создания цифрового контента.

Еще недавно пользователи генеративных моделей старались писать максимально длинные и подробные запросы, перечисляя каждую деталь будущего изображения или видео. В новом руководстве Google предлагает противоположный подход. Разработчики утверждают, что Gemini Omni уже обладает обширными знаниями о мире, поэтому пользователю не нужно описывать каждую мелочь. Гораздо важнее точно сформулировать задачу и использовать понятные модели.

Одна из ключевых возможностей Gemini Omni – понимание сложных действий без необходимости расписывать их покадрово. В качестве примера Google приводит запрос: “Оставь всё как есть, но добавь анимированные эффекты движения, исходящие от скейтборда”. Модель самостоятельно определяет, как этот эффект должен выглядеть на протяжении всего ролика.

Также акцент сделан на языке кинематографа. Пользователям предлагают управлять виртуальной камерой с помощью привычных для операторов и режиссеров команд: «один непрерывный кадр», «наезд камеры», «фиксированная камера», «долли-зум», «съемка на смартфон» или «веб-камера». По сути, Google учит обращаться к ИИ как к оператору-постановщику.

Еще одна особенность модели – возможность редактировать видео через обычный диалог. Пользователь может менять отдельные элементы сцены, сохраняя все остальное. Например, превратить скульптуру в мыльные пузыри, заставить зеркало вести себя как жидкость или синхронизировать освещение в окнах домов с музыкой. При этом модель должна сохранять целостность сцены, персонажей и физики происходящего.

Приложение может работать с разными типами исходных материалов – изображения, видео, текст и аудио, объединяя их в одном проекте. В примерах Google предлагает взять форму птицы с изображения, движение стаи из видеоролика и музыкальное сопровождение из аудиофайла, а затем объединить это в новую сцену.

Разработчики отдельно выделяют работу с текстом внутри видео. Gemini Omni умеет не просто отображать надписи, а синхронизировать их с движением и ритмом происходящего на экране. В одном из примеров каждое слово появляется по отдельности в собственном визуальном стиле и в заданном темпе.

Таким образом роль человека постепенно смещается в сторону творческого директора: он определяет идею, стиль, настроение и задает общие правила, а техническую реализацию берет на себя система.

Для медиа, маркетинга и креативных индустрий это может означать очередное сокращение дистанции между идеей и готовым контентом. А главным навыком становится уже не владение конкретным редактором или программой, а способность точно сформулировать творческое намерение.

Иллюстрации: deepmind.google