Нейросеть для генерации видео Sora от создателей ChatGPT: почему о ней так много говорят
15 февраля OpenAI представила нейросеть Sora, которая генерирует видео по текстовому запросу.
Sora может генерировать видео длиной до минуты в высоком качестве и точно следовать запросу пользователя. Она существенно отличается от аналогов, которые создают нереалистичные и дерганные ролики с артефактами.
Пока протестировать нейросеть нельзя, но оценить ее возможности можно по примерам OpenAI.
Расскажу, чем Sora отличается от других нейросетей и как стала источником мемов.
Что такое Sora
Нейросеть создала OpenAI. Эта же компания разработала два других популярных ИИ-сервиса — ChatGPT и Dall-E 3. По словам создателей, новый алгоритм опирается на предыдущие исследования. К примеру, в Sora используется технология из Dall-E 3: у каждой картинки есть детальное описание. Благодаря этому модель способна более точно следовать промптам.
Sora — диффузионная модель. Она обучалась на множестве реальных видео. При генерации Sora берет случайный «шумный» ролик и шаг за шагом превращает его в четкое видео, соответствующее запросу пользователя.
Sora умеет генерировать по текстовому запросу, видео или картинке. Модель может не только создать видеоряд с нуля, но и расширить существующий ролик или анимировать готовую картинку. Пока OpenAI показала только результаты генерации по текстовому промпту.
Не нужно учиться писать запросы. Судя по примерам, которые опубликовала OpenAI, промпты можно писать естественным языком, не выстраивая запрос по специальной формуле и не указывая неочевидные дополнительные параметры.
Во многих генераторах картинок нужно заучивать специальные команды, искать подсказки и прописывать параметры. В Dall-E 3 задачу можно описать простыми словами, как другу. Предположительно так же будет и в Sora.
Нейросеть пока закрыта от публики. Она доступна только для тестировщиков, которые проверяют ее на критичные ошибки. OpenAI также предоставляет доступ художникам, дизайнерам и режиссерам, чтобы собрать отзывы о том, как улучшить модель.
Когда Sora станет доступна
OpenAI пока не объявила, когда нейросеть выйдет в публичный доступ. В ответ на сообщение пользователя разработчики заявили, что Sora — «незаконченный продукт, листа ожидания нет, ожидаемой даты релиза тоже нет».
Как умеет генерировать Sora
Нейросеть умеет генерировать сложные сцены с несколькими персонажами, разными типами движения и точной детализацией фона. Модель понимает не только то, что пользователь прописывает в текстовом запросе, но и то, как эти вещи существуют в реальном мире.
Sora генерирует реалистично. Большая проблема нейросетей, генерирующих видео, — они не могут создать с нуля реалистичных людей, животных, пейзажи или объекты. Реалистичные картинки у Sora получаются значительно лучше, чем у конкурентов. Некоторые кадры невозможно отличить от реальных съемок.
Sora генерирует анимацию. Нейросеть может создавать не только реалистичные видео, но и анимацию. Правда, среди примеров разработчики показали только 3D-реализм в духе Pixar.
Неизвестно, может ли нейросеть имитировать другие анимационные стили, например 2D или абстрактные направления. Однако тестировщики обнаружили, что Sora может достоверно имитировать стиль видеоигры Minecraft.
Sora генерирует консистентно. Нейросеть сохраняет объект неизменным, даже если он временно исчезает из поля зрения или происходит смена ракурса. Это свойство распространяется как на персонажей, так и на окружающую их среду.
Такой подход решает проблему мерцания, характерную для нейросетей, генерирующих видео. Обычно проблема в том, что объекты могут незначительно меняться в рамках одного кадра, даже если не движутся, что приводит к нестабильности изображения.
У Sora есть недостатки. Она может не справиться с точным моделированием физики в сложной сцене и не понимать конкретные случаи причинно-следственных связей. Например, человек может откусить печенье, но на том не всегда остаются следы укуса.
Модель также пугает описание пространства в запросе: лево и право, вперед или назад. А еще испытывает трудности с точным описанием событий: например, если в промпте прописана определенная траектория камеры, нейросеть может ей не последовать.
Почему Sora так сильно обсуждают в соцсетях
В день анонса нейросети глава OpenAI Сэм Альтман предложил своим подписчикам в «Твиттере» отправлять ему запросы, чтобы протестировать Sora, а затем опубликовал несколько роликов, сгенерированных по предложенным промптам. Посты завирусились в соцсети, набрав от 7 до 13 миллионов просмотров. Особенно популярным стал ролик с собаками, записывающими подкаст в горах.
Генерации показались пользователям настолько реалистичными, что в соцсети принялись иронично публиковать реальные видео, выдавая их за ролики из Sora. Например, под кадрами из «Титаника», индийских фильмов или клипа Рика Эстли Never Gonna Give You Up писали «До чего дошли нейросети» или целый вымышленный запрос, по которому якобы сгенерирован этот ролик.
В этом принял участие даже Уилл Смит. Когда алгоритмы для генерации видео только начали вируситься, в соцсетях был популярен сгенерированный ролик, в котором актер агрессивно ест спагетти. Из-за низкого уровня технологий в видео было много артефактов и дерганных движений.
Смит воспроизвел сцену с поеданием спагетти в реальности и опубликовал его в «Тиктоке», притворившись, что видео создали с помощью Sora. Ролик набрал 12 миллионов просмотров.
На фоне популярности ролика Смита пользователи соцсетей публиковали ироничные видео с собой и вымышленными промптами вроде «Красивый и богатый парень идет по улице, реализм», выдавая их за сгенерированные в Sora.
Где следить за новыми красивыми видео от Sora
- Официальный тикток-аккаунт OpenAI. Там выкладывают свежие видео от Sora, которые не найти в других нейросетях. Иногда разработчики генерируют ролики по пользовательским запросам. Для просмотра из России потребуется доступ к «Тиктоку».
- Твиттер-аккаунт Сэма Альтмана, CEO OpenAI. Там выложили несколько примеров генераций по пользовательским запросам в день анонса.
- Твиттер-аккаунт Билла Пиблза, сотрудника OpenAI и разработчика Sora. Выкладывает случайные примеры генераций.
- Твиттер-аккаунт Тима Брукса, сотрудника OpenAI и разработчика Sora. Он тоже выкладывает случайные примеры видеогенераций.
- Твиттер-аккаунт Адитьи Рамеша, сотрудника OpenAI и разработчика Sora. Новые работы появляются и там.
- Фанатское сообщество на Reddit, посвященное OpenAI. Тут публикуют все известные примеры генераций в Sora.
Мы рассказываем разные истории о популярной культуре и тех, кто ее создает. Подписывайтесь на наш телеграм: @t_technocult