Изкуствен интелект на Google създава видео по текстово описание

Стоян Ненов Последна промяна на 07 октомври 2022 в 15:12 4308 0

Снимка Google

Imagen Google

Изкуственият интелект, качеството и човешкият фактор – във фокуса на ISTA 2025

16/10/2025

Apple дава до 2 млн. долара награда за откриване на сериозни уязвимости

Много от усилията в сферата на изкуствения интелект са насочени в това тези алгоритми да разпознават обекти, говор и като цяло да „виждат“ света и да могат да го описват. Някои проекти обаче са насочени в обратната посока – да създават видео на базата на текстово описание, което им е подадено.

Точно такива проекти имат Meta и Google. Този на Google беше представен в сряда от компанията и се казва Imagen Video. Досегашните подобни проекти можеха да се справят със сравнителни кратки описания и да създават съответно къси клипове, които да изобразяват написаното.

Imagen Video изглежда с доста по-значителни способности. Технологията може да създава анимации на доста по-сложни обекти и с повече детайли, например замък на хълм с гора. При това дърветата са различни по форма, вид, цвят и дори се различават листа и клони.

Разбира се, качеството е доста базово и прилича на видео игра от преди повече от 20 години. Освен това има и дефекти в изобразяването на обектите, като някои конуси са изкривени, покривите не са равни и т.н. Но все пак става дума за доста ранно поколение на технологията.

„Определено тя няма скоро да се използва за телевизия или анимации. Все пак нещо подобно може да се внедри в съществуващите инструменти, за да ускори процеса“, казва Матю Гуздал от университета на Алберта, който изучава изкуствен интелект и машинно обучение.

Imagen Video е второ поколение на технологията на Google. Той е обучен чрез метод на дифузия – алгоритъмът получава готови клипове, които „разваля“ и възстановява. Така опознава обектите и съответно може да ги създава дори и само по описание занапред.

Google описва, че системата създава клипа на няколко етапа. Първо взима текстовото описание и го анализира, за да изработи клип с общо 16 кадъра и 3 кадъра в секунда и с резолюция 24 на 48 пиксела. След това системата преконвертира клипа още веднъж и „предвижда“ какви други кадри ще са нужни и ги добавя. Така се получава крайният резултат – клип с общо 128 кадъра, с 24 кад/сек и резолюция 1280х768 пиксела.

Imagen Video е бил обучен чрез 14 млн. комбинации от видео и текст и 60 млн. комбинации от изображение и текст, както и публичната база данни LAION-400M. Учените на Google твърдят, че технологията е показала способност да създава клипове в художествения стил на Ван Гог, както и да разбира триизмерните пропорции, за да създава усещане за дълбочина, когато се правят кадри с прелитане на дрон над обекти например.

Учените споделят, че има нужда от още доста работа. Базите данни за обучение са съдържали „проблемно съдържание“, което може да позволи технологията да се използва за генериране на сексуално съдържание или насилие. Затова Google няма да пусне кода и данните на Imagen Video докато не бъдат „почистени“, за да няма такъв риск. След това технологията ще е публично достъпна.

Друг подобен проект е Make-A-Video на Meta. Принципът на работа е сходен, както и нивото на качеството. Основните проблеми отново са в изобразяването на плавното движение на обектите и запазването на пропорциите им докато се местят. Компанията също обмисля да пусне алгоритъма публично, но по-натам. За разлика от Google, достъпът ще е с регистрация.