Как понять, что видео сгенериро­вали в нейросети?

5
Аватар автора

Алексей

спросил в Сообществе

Недавно мама прислала мне видео, где кабачок был размером с человека. Сначала я поверил, но затем пригляделся к деталям и понял, что видео сделали в нейросети. Еле убедил маму, что такого не бывает. Расскажите, как точно распознавать видео, сделанные с помощью нейросетей?

Аватар автора

Егор Аргунов

распознает нейросети на раз-два

Страница автора

Действительно, нейровидео становятся все более реалистичными. Продвинутые пользователи интернета замечают мелкие детали в видео, выдающие их искусственную природу. Но вот дети и старшее поколение могут принимать такие ролики за чистую монету.

Расскажу, почему нейросетевые видео стали такими реалистичными и как их распознать.

Как нейровидео стали реалистичными

О нейросетях, которые создают короткие ролики из текстовых запросов, массово заговорили осенью 2022 года. Тогда свои модели почти одновременно представили сразу две корпорации: Meta* и Google. За ними подтянулись Runway, Adobe и другие компании, специализирующиеся на ИИ.

Первые нейровидео не отличались высоким качеством. Модели искажали лица людей, путали количество пальцев и смазывали изображение. А некоторые видео были даже откровенно пугающими. Эталонный пример — видео, сделанное в апреле 2023 года, в котором нейросетевой Уилл Смит поедает пасту.

Видео создали с помощью Stable Diffusion

К концу 2023 года качество нейросетевых видео заметно улучшилось. Люди стали больше походить на реальных, а их движения выглядели более плавными. Но искусственность роликов выдавали пропадающие объекты на фонах и размывающиеся лица.

Нейросети за раз могут генерировать только несколько секунд видео. Поэтому полноценный ролик, хотя бы короткометражный, собирают из несколько разных генераций. Из-за этого консистентности персонажей и локаций добиться сложно.

Приключения папы римского в Нью-Йорке. Видео создали с помощью Pika Labs

Революция в нейровидео произошла в феврале 2024 года, когда создатели ChatGPT из OpenAI представили продвинутую модель для создания видео Sora. Компания показала впечатляющие, практически фотореалистичные ролики, например щенков на снегу и прогулку девушки по ночным улицам Токио.

Если не приглядываться к мелким деталям, эти видео можно принять за настоящие.

Щенки играют в снегу. Видео сделано в Sora

Sora еще не вышла в открытый доступ, но побудила другие компании улучшить свои модели. Появилась третья версия Runway, свои бесплатные нейросервисы выпустили китайские компании Minimax и Kling. Популярной в соцсетях стала Pika, где взрывают и разрезают картинки как торт.

Скачок в развитии сервисов заметен по тому же Уиллу Смиту, который ест спагетти. Всего полтора года назад его компьютерный двойник мог присниться в кошмарах, а сейчас выглядит вполне достойно.

В этом видео Уилл Смит не только ест спагетти, но и принимает с ним душ

В 2024 году нейровидео везде. Особенно популярны бесплатные модели Luma и Runway, с помощью которых оживляют знаменитые фотографии и создают мемные ролики. Например, нейровидео с танцующими собаками достаточно популярны в «Тиктоке» и «Инстаграме»**.

В каких-то случаях нейровидео выглядят настолько реально, что с их помощью распространяют фейки о знаменитостях. Скажем, в соцсетях завирусилось видео, в котором на ютубера MoistCr1TiKal якобы напала обезьяна.

Этот ролик не самый качественный: лицо блогера неестественно дергается. Но эффект реализма достигается за счет звука — ненастоящий ютубер правдоподобно кричит от боли. Поэтому многие зрители поверили, что видео настоящее. Ситуацию с нейрофейками обсудил сам MoistCr1TiKal. Он в шутку назвал такие видео «шедеврами искусства, которые не мог создать сам Микеланджело».

Тот самый ролик с обезьяной

Как самому отличить видео, созданные нейросетями

Как правило, нейросетевые видео выдает морфинг — плавное и зачастую неестественное изменение формы объектов или деталей в кадре. Как будто один объект или человек перетекает в другого. Это связано с тем, что нейросети пытаются дорисовать картинку, но не всегда делают это корректно.

Расскажу, на что обращать внимание в первую очередь.

Движения людей. В нейровидео персонажи либо двигаются слишком плавно, либо неестественно дергаются и шатаются в стороны. При просмотре возникает эффект зловещей долины  , ведь настоящие люди так не двигаются.

Лица людей на Runway Gen-3 выглядят естественно, но движения выдают их ненастоящую природу

Изменение лиц, когда персонаж получает другую внешность за несколько секунд. Нейросети забывают, как один и тот же человек выглядел в начале и конце ролика. Из-за этого меняется форма носа, пропорции губ или цвет глаз.

Например, этим грешит популярная модель MiniMax, которая делает упор на фотореализм.

У мужчины в начале густая седая борода и шляпа-федора. В конце борода становится черной, а шляпа выглядит совсем по-другому

Пропадающие объекты. Модели иногда теряют части тела или предметы, которые они держат. Особенно часто такое происходит, если объект находится на границе поля зрения, — эти элементы могут пропасть, слившись с фоном, или начать дрожать.

Размытие можно и не заметить, если в видео люди находятся далеко от камеры. Но нынешние модели еще не умеют работать с большими толпами: некоторые объекты бесследно пропадают при движении. Всегда присматривайтесь к людям, животным и предметам на фоне.

Уже на первых секундах нейродевушка словно сливается с фоном. А ее волосы не двигаются при ходьбе
На 00:06 можно заметить, как лошадь куда-то телепортируется

Перетекание текстур проявляется в одежде или предметах. Например, ткань, которая должна оставаться статичной, начинает течь по телу персонажа, меняя свои очертания или даже исчезая в некоторых местах. Кроме того, сама ткань часто вызывает подозрения: она слишком идеальна, без единой нитки и складки.

Фон. Нейросети автоматически ставят высокую глубину резкости, когда показывают людей. Из-за этого фон становится чрезмерно сглаженным и слишком сильно выделяет персонажа на первый план. И это касается не только фотореалистичных, но и анимационных видео.

Если на фоне ничего не разобрать, а все внимание фокусируется исключительно на переднем плане, возможно, перед вами нейровидео.

Ролик о ретрофутуризме в стиле 1970-х грешит сильным размытием фона

Пальцы и конечности. Сейчас в нейровидео вы вряд ли встретите людей с шестью пальцами или тремя ногами, как это было год назад. Но обращать внимание на конечности все равно стоит: даже самые продвинутые модели могут обработать их так, что ошибки сразу бросаются в глаза. Например, нейросети делают руки слишком длинными или короткими, стирают ногу или добавляют лишнюю конечность.

Отражения. Во многих нейровидео они отображаются правильно, но случаются ошибки, особенно если это сложные ролики с участием множества персонажей одновременно. На зеркалах и стеклах могут пропадать отражения — или показываться неправильной стороной.

На 00:09 в зеркалах нет отражений танцовщиц, зато там видны люди, которых нет на переднем плане
Нейровидео про движущийся поезд выглядит реалистично. Но все выдает не меняющийся сзади фон

Плывущие силуэты. В нынешних нейровидео люди уже выглядят гораздо естественнее, чем год назад. Но стоит присмотреться к призрачному эффекту, которые нейросети выдают до сих пор. Силуэты людей часто мерцают или имеют размытые края, словно их очертания немного плывут на видео.

Движения губ. Модели научились показывать правдоподобную ходьбу и бег людей. Но с губами еще не справляются: персонажи только открывают рот, а в этот момент глаза и другие части лица не двигаются. Часто в нейровидео люди вовсе не разговаривают — иначе эффект реализма сходит на нет.

С помощью нейросетей создают трейлеры несуществующих фильмов, например стратегии StarCraft. В целом ролик выглядит качественно, но все выдают движения губ на 01:22

Освещение. Почти все нейроролики показывают события при свете дня или с ярким освещением. Это связано с тем, что модели ориентируются в первую очередь на профессиональные видео с качественным освещением.

Поэтому вы вряд ли увидите нейровидео, в котором трудно что-то разглядеть: даже в ночных сценах все освещает либо яркий фонарь, либо лунный свет.

Лицо девушки из презентации Sora выглядит неестественно ярким. А ее лицо не освещают ни фонари, ни вывески

Как еще можно распознать нейровидео

Если видео все еще вызывает сомнения, используйте дополнительные способы проверки. Вот что можно сделать.

Воспользуйтесь онлайн-детектором. В 2024 году появились сервисы, которые за несколько секунд определяют, сгенерирован ли ролик. Многие из них работают не очень хорошо и не распознают очевидно искусственные видео, а другие требуют оплаты без возможности протестировать сервис.

Рекомендую попробовать бесплатный онлайн-сервис TrueMedia. Достаточно отправить в него ссылку на ролик или загрузить его и нажать кнопку Scan. После этого сервис выдаст вердикт и расскажет, что именно смутило его в видео.

Прочитайте плашку или описание. Соцсети и видеоплатформы, например «Ютуб» и «Тикток», помечают нейровидео специальными плашками. Часто авторы роликов сами не скрывают, что сгенерировали видео в нейросети, и добавляют в подпись слово AI или название сервиса, где создавали видео.

Обратите внимание на аудиодорожку. Ни одна модель пока не умеет создавать ролики со звуком. Поэтому создатели нейровидео либо подставляют туда музыку, либо пытаются создавать свои звуки с помощью других нейроинструментов. Часто такое аудио звучит слишком идеально или неестественно. Или вообще не совпадает с тем, что происходит в видео.

Поищите источник. Используйте обратный поиск по скриншоту из видео через сервис «Картинки Google». Это поможет найти оригинальный контент и выяснить его происхождение.

Что в итоге

Наблюдайте за движениями. Если персонажи двигаются слишком плавно или неестественно, это явный признак работы нейросети.

Ищите несовпадения. Внимательно смотрите на лица, пальцы и текстуры: ошибки в деталях все еще встречаются.

Обращайте внимание на фон. Сильное размытие или отсутствие взаимодействия между персонажем и окружением часто выдает искусственное видео.

Если звук не совпадает с происходящим или кажется слишком идеальным, это тоже признак нейровидео.

Используйте онлайн-детекторы и обратный поиск по изображениям, чтобы убедиться в подлинности ролика.

Егор АргуновКакое видео вы приняли за настоящее, а потом поняли, что это нейросети? Поделитесь в комментариях:
  • Курочка Дрёмаотдельное спасибо за вставки с ютуба, которые внезапно не работают.5
  • Никита МардюковВот геморроя прибавилось0
  • Никита МардюковКурочка, Визуализировали отлично0
  • Михаил ВикторовичПериодически на ютубе попадаются видео с рандомными картинками и текстом, озвученным не человеком. Уровень доверия к такому контенту нулевой.0
  • Forest LonghillАвтор вы видимо вовсе не знакомы со съемкой на камеру с линзовым объективом раз высказали претензию к размытому фону. Во первых это красиво, во вторых это делается намеренно чтобы вылелить персонажа, в третьих в 70х это очень частый прием съемки, ктому же к размытым фонам добавлялся эффект Бокэчто тоже добавляло изюменку. Да и в современных фильмах это тоже часто встречается. Не все надо в ультра четкости снимать.0