Как понять, что видео сгенерировали в нейросети?
Недавно мама прислала мне видео, где кабачок был размером с человека. Сначала я поверил, но затем пригляделся к деталям и понял, что видео сделали в нейросети. Еле убедил маму, что такого не бывает. Расскажите, как точно распознавать видео, сделанные с помощью нейросетей?
Действительно, нейровидео становятся все более реалистичными. Продвинутые пользователи интернета замечают мелкие детали в видео, выдающие их искусственную природу. Но вот дети и старшее поколение могут принимать такие ролики за чистую монету.
Расскажу, почему нейросетевые видео стали такими реалистичными и как их распознать.
О чем вы узнаете
Как нейровидео стали реалистичными
О нейросетях, которые создают короткие ролики из текстовых запросов, массово заговорили осенью 2022 года. Тогда свои модели почти одновременно представили сразу две корпорации: Meta* и Google. За ними подтянулись Runway, Adobe и другие компании, специализирующиеся на ИИ.
Первые нейровидео не отличались высоким качеством. Модели искажали лица людей, путали количество пальцев и смазывали изображение. А некоторые видео были даже откровенно пугающими. Эталонный пример — видео, сделанное в апреле 2023 года, в котором нейросетевой Уилл Смит поедает пасту.
К концу 2023 года качество нейросетевых видео заметно улучшилось. Люди стали больше походить на реальных, а их движения выглядели более плавными. Но искусственность роликов выдавали пропадающие объекты на фонах и размывающиеся лица.
Нейросети за раз могут генерировать только несколько секунд видео. Поэтому полноценный ролик, хотя бы короткометражный, собирают из несколько разных генераций. Из-за этого консистентности персонажей и локаций добиться сложно.
Революция в нейровидео произошла в феврале 2024 года, когда создатели ChatGPT из OpenAI представили продвинутую модель для создания видео Sora. Компания показала впечатляющие, практически фотореалистичные ролики, например щенков на снегу и прогулку девушки по ночным улицам Токио.
Если не приглядываться к мелким деталям, эти видео можно принять за настоящие.
Sora еще не вышла в открытый доступ, но побудила другие компании улучшить свои модели. Появилась третья версия Runway, свои бесплатные нейросервисы выпустили китайские компании Minimax и Kling. Популярной в соцсетях стала Pika, где взрывают и разрезают картинки как торт.
Скачок в развитии сервисов заметен по тому же Уиллу Смиту, который ест спагетти. Всего полтора года назад его компьютерный двойник мог присниться в кошмарах, а сейчас выглядит вполне достойно.
В 2024 году нейровидео везде. Особенно популярны бесплатные модели Luma и Runway, с помощью которых оживляют знаменитые фотографии и создают мемные ролики. Например, нейровидео с танцующими собаками достаточно популярны в «Тиктоке» и «Инстаграме»**.
В каких-то случаях нейровидео выглядят настолько реально, что с их помощью распространяют фейки о знаменитостях. Скажем, в соцсетях завирусилось видео, в котором на ютубера MoistCr1TiKal якобы напала обезьяна.
Этот ролик не самый качественный: лицо блогера неестественно дергается. Но эффект реализма достигается за счет звука — ненастоящий ютубер правдоподобно кричит от боли. Поэтому многие зрители поверили, что видео настоящее. Ситуацию с нейрофейками обсудил сам MoistCr1TiKal. Он в шутку назвал такие видео «шедеврами искусства, которые не мог создать сам Микеланджело».
Как самому отличить видео, созданные нейросетями
Как правило, нейросетевые видео выдает морфинг — плавное и зачастую неестественное изменение формы объектов или деталей в кадре. Как будто один объект или человек перетекает в другого. Это связано с тем, что нейросети пытаются дорисовать картинку, но не всегда делают это корректно.
Расскажу, на что обращать внимание в первую очередь.
Движения людей. В нейровидео персонажи либо двигаются слишком плавно, либо неестественно дергаются и шатаются в стороны. При просмотре возникает эффект зловещей долины , ведь настоящие люди так не двигаются.
Изменение лиц, когда персонаж получает другую внешность за несколько секунд. Нейросети забывают, как один и тот же человек выглядел в начале и конце ролика. Из-за этого меняется форма носа, пропорции губ или цвет глаз.
Например, этим грешит популярная модель MiniMax, которая делает упор на фотореализм.
Пропадающие объекты. Модели иногда теряют части тела или предметы, которые они держат. Особенно часто такое происходит, если объект находится на границе поля зрения, — эти элементы могут пропасть, слившись с фоном, или начать дрожать.
Размытие можно и не заметить, если в видео люди находятся далеко от камеры. Но нынешние модели еще не умеют работать с большими толпами: некоторые объекты бесследно пропадают при движении. Всегда присматривайтесь к людям, животным и предметам на фоне.
Перетекание текстур проявляется в одежде или предметах. Например, ткань, которая должна оставаться статичной, начинает течь по телу персонажа, меняя свои очертания или даже исчезая в некоторых местах. Кроме того, сама ткань часто вызывает подозрения: она слишком идеальна, без единой нитки и складки.
Фон. Нейросети автоматически ставят высокую глубину резкости, когда показывают людей. Из-за этого фон становится чрезмерно сглаженным и слишком сильно выделяет персонажа на первый план. И это касается не только фотореалистичных, но и анимационных видео.
Если на фоне ничего не разобрать, а все внимание фокусируется исключительно на переднем плане, возможно, перед вами нейровидео.
Пальцы и конечности. Сейчас в нейровидео вы вряд ли встретите людей с шестью пальцами или тремя ногами, как это было год назад. Но обращать внимание на конечности все равно стоит: даже самые продвинутые модели могут обработать их так, что ошибки сразу бросаются в глаза. Например, нейросети делают руки слишком длинными или короткими, стирают ногу или добавляют лишнюю конечность.
Отражения. Во многих нейровидео они отображаются правильно, но случаются ошибки, особенно если это сложные ролики с участием множества персонажей одновременно. На зеркалах и стеклах могут пропадать отражения — или показываться неправильной стороной.
Плывущие силуэты. В нынешних нейровидео люди уже выглядят гораздо естественнее, чем год назад. Но стоит присмотреться к призрачному эффекту, которые нейросети выдают до сих пор. Силуэты людей часто мерцают или имеют размытые края, словно их очертания немного плывут на видео.
Движения губ. Модели научились показывать правдоподобную ходьбу и бег людей. Но с губами еще не справляются: персонажи только открывают рот, а в этот момент глаза и другие части лица не двигаются. Часто в нейровидео люди вовсе не разговаривают — иначе эффект реализма сходит на нет.
Освещение. Почти все нейроролики показывают события при свете дня или с ярким освещением. Это связано с тем, что модели ориентируются в первую очередь на профессиональные видео с качественным освещением.
Поэтому вы вряд ли увидите нейровидео, в котором трудно что-то разглядеть: даже в ночных сценах все освещает либо яркий фонарь, либо лунный свет.
Как еще можно распознать нейровидео
Если видео все еще вызывает сомнения, используйте дополнительные способы проверки. Вот что можно сделать.
Воспользуйтесь онлайн-детектором. В 2024 году появились сервисы, которые за несколько секунд определяют, сгенерирован ли ролик. Многие из них работают не очень хорошо и не распознают очевидно искусственные видео, а другие требуют оплаты без возможности протестировать сервис.
Рекомендую попробовать бесплатный онлайн-сервис TrueMedia. Достаточно отправить в него ссылку на ролик или загрузить его и нажать кнопку Scan. После этого сервис выдаст вердикт и расскажет, что именно смутило его в видео.
Прочитайте плашку или описание. Соцсети и видеоплатформы, например «Ютуб» и «Тикток», помечают нейровидео специальными плашками. Часто авторы роликов сами не скрывают, что сгенерировали видео в нейросети, и добавляют в подпись слово AI или название сервиса, где создавали видео.
Обратите внимание на аудиодорожку. Ни одна модель пока не умеет создавать ролики со звуком. Поэтому создатели нейровидео либо подставляют туда музыку, либо пытаются создавать свои звуки с помощью других нейроинструментов. Часто такое аудио звучит слишком идеально или неестественно. Или вообще не совпадает с тем, что происходит в видео.
Поищите источник. Используйте обратный поиск по скриншоту из видео через сервис «Картинки Google». Это поможет найти оригинальный контент и выяснить его происхождение.
Что в итоге
Наблюдайте за движениями. Если персонажи двигаются слишком плавно или неестественно, это явный признак работы нейросети.
Ищите несовпадения. Внимательно смотрите на лица, пальцы и текстуры: ошибки в деталях все еще встречаются.
Обращайте внимание на фон. Сильное размытие или отсутствие взаимодействия между персонажем и окружением часто выдает искусственное видео.
Если звук не совпадает с происходящим или кажется слишком идеальным, это тоже признак нейровидео.
Используйте онлайн-детекторы и обратный поиск по изображениям, чтобы убедиться в подлинности ролика.