Искусственный интеллект научился мгновенно создать видео из текста: мощный прорыв

В четверг OpenAI представила инструмент, который может генерировать видео из текстовых подсказок, пишет The Guardian.

Новая модель, получившая название Sora в честь японского слова, означающего “небо”, может создавать реалистичные кадры продолжительностью до минуты, соответствующие инструкциям пользователя как по тематике, так и по стилю. Согласно сообщению в блоге компании, модель также способна создавать видео на основе неподвижного изображения или дополнять существующие кадры новым материалом.

“Мы учим ИИ понимать и моделировать физический мир в движении с целью создания обучающих моделей, которые помогают людям решать проблемы, требующие взаимодействия в реальном мире”, — говорится в сообщении в блоге.

Одно видео, включенное в число нескольких первоначальных примеров от компании, было основано на подсказке: “Трейлер фильма о приключениях 30-летнего космонавта в красном шерстяном вязаном мотоциклетном шлеме, голубое небо, соленая пустыня, кинематографический стиль, снято на 35-миллиметровую пленку, яркие цвета”.

Компания объявила, что открыла доступ к Sora нескольким исследователям и создателям видео.

Эксперты “перепроверят” продукт – протестируют его на соответствие условиям предоставления услуг OpenAI, которые запрещают “экстремальное насилие, сексуальный контент, изображения, вызывающие ненависть, сходство со знаменитостями или IP других лиц”, согласно сообщению в блоге компании.

Компания предоставляет ограниченный доступ только исследователям, художникам-визуалистам и кинематографистам, хотя генеральный директор Сэм Альтман ответил на запросы пользователей в Twitter после объявления видеоклипами, которые, по его словам, были сделаны Sora. На видео есть водяной знак, указывающий на то, что они были сделаны искусственным интеллектом.

Компания дебютировала с генератором неподвижных изображений Dall-E в 2021 году и чат-ботом ChatGPT в ноябре 2022 года, который быстро набрал 100 миллионов пользователей. Другие компании, работающие с искусственным интеллектом, представили инструменты для генерации видео, хотя эти модели смогли создать всего несколько секунд видеоматериала, который часто не имеет большого отношения к их подсказкам. Технологические гиганты заявили, что находятся в процессе разработки инструментов для генерации видео, хотя и не представили их широкой публике.

В среду компания объявила об эксперименте с добавлением более глубокой памяти в ChatGPT, чтобы она могла запоминать больше чатов своих пользователей.

OpenAI не раскрыла, сколько видеоматериалов было использовано для обучения Sora или откуда могли взяться обучающие видеоролики, за исключением сообщения New York Times, что корпус содержал видеоролики, которые были как общедоступными, так и лицензированными владельцами авторских прав. На компанию неоднократно подавали в суд за предполагаемое нарушение авторских прав при обучении ее инструментов генеративного искусственного интеллекта, которые переваривают гигантские объемы материала, извлеченного из Интернета, и имитируют изображения или текст, содержащиеся в этих наборах данных.

Источник: mk.ru