НОВОСТИ

Google объяснил, как разговаривать с ИИ для создания видео

03.06.2026

271

03.06.2026

Google DeepMind опубликовала подробное руководство по созданию запросов для новой модели Gemini Omni Flash – системы, способной генерировать и редактировать видео на основе текста, изображений, аудио и уже существующих роликов. На первый взгляд это очередная инструкция для пользователей ИИ. На деле документ показывает, как стремительно меняется логика создания цифрового контента.

Еще недавно пользователи генеративных моделей старались писать максимально длинные и подробные запросы, перечисляя каждую деталь будущего изображения или видео. В новом руководстве Google предлагает противоположный подход. Разработчики утверждают, что Gemini Omni уже обладает обширными знаниями о мире, поэтому пользователю не нужно описывать каждую мелочь. Гораздо важнее точно сформулировать задачу и использовать понятные модели.

Одна из ключевых возможностей Gemini Omni – понимание сложных действий без необходимости расписывать их покадрово. В качестве примера Google приводит запрос: “Оставь всё как есть, но добавь анимированные эффекты движения, исходящие от скейтборда”. Модель самостоятельно определяет, как этот эффект должен выглядеть на протяжении всего ролика.

Также акцент сделан на языке кинематографа. Пользователям предлагают управлять виртуальной камерой с помощью привычных для операторов и режиссеров команд: «один непрерывный кадр», «наезд камеры», «фиксированная камера», «долли-зум», «съемка на смартфон» или «веб-камера». По сути, Google учит обращаться к ИИ как к оператору-постановщику.

Еще одна особенность модели – возможность редактировать видео через обычный диалог. Пользователь может менять отдельные элементы сцены, сохраняя все остальное. Например, превратить скульптуру в мыльные пузыри, заставить зеркало вести себя как жидкость или синхронизировать освещение в окнах домов с музыкой. При этом модель должна сохранять целостность сцены, персонажей и физики происходящего.

Приложение может работать с разными типами исходных материалов – изображения, видео, текст и аудио, объединяя их в одном проекте. В примерах Google предлагает взять форму птицы с изображения, движение стаи из видеоролика и музыкальное сопровождение из аудиофайла, а затем объединить это в новую сцену.

Разработчики отдельно выделяют работу с текстом внутри видео. Gemini Omni умеет не просто отображать надписи, а синхронизировать их с движением и ритмом происходящего на экране. В одном из примеров каждое слово появляется по отдельности в собственном визуальном стиле и в заданном темпе.

Таким образом роль человека постепенно смещается в сторону творческого директора: он определяет идею, стиль, настроение и задает общие правила, а техническую реализацию берет на себя система.

Для медиа, маркетинга и креативных индустрий это может означать очередное сокращение дистанции между идеей и готовым контентом. А главным навыком становится уже не владение конкретным редактором или программой, а способность точно сформулировать творческое намерение.

Иллюстрации: deepmind.google

Google объяснил, как разговаривать с ИИ для создания видео

САМОЕ ПОПУЛЯРНОЕ

В Казахстане на 14 часов отключат телевидение и радио

«Одиссея» собрала $264 млн за выходные. Но успех фильма начался задолго до премьеры

Согласие на таргетинг и цифровой комендантский час: инициативы, меняющие правила для подростков

Publicis Groupe выиграла шесть крупных тендеров и повысила прогноз роста

ВЫБОР РЕДАКЦИИ

Опубликованы Рейтинги эффективности агентств и брендов E+ Awards Центральная Азия 2026

E+ Awards 2026 назвал самые эффективные маркетинговые проекты Центральной Азии

IMS+ открыла продажи спонсорских пакетов к ЧМ-2026

Рынок ТВ в Казахстане: стабильность показателей и рост локального контента

Наружную рекламу в Самарканде приведут к единому стандарту

WhatsApp стал лидером в Казахстане среди фишинговых атак