Мы сгенерировали в нейросети 3250 кадров и объединили их в видео о танце

5
Мы сгенерировали в нейросети 3250 кадров и объединили их в видео о танце

Это история из Сообщества. Редакция задала вопросы, бережно отредактировала и оформила по стандартам журнала

Аватар автора

Александр Жиганов

креативный продюсер студии

Страница автора

В конце 2022 года мы с друзьями и бывшими коллегами основали студию медиаискусств Shum — я занял должность креативного продюсера.

Мы занимаемся арт-проектами и цифровым искусством. Например, делаем презентации, интерактивные инсталляции и стенды, создаем видео и анимации, экспериментируем с виртуальной реальностью. В общем, стараемся объединить искусство и технологии.

Именно поэтому мы с особым интересом следили за развитием нейросетей. Как-то мы уже применяли их для улучшения качества видео, но все же хотелось придумать что-то более серьезное с использованием искусственного интеллекта.

Идея ролика и первые шаги

Наша студия активно сотрудничает с Инновационным театром балета Калуги. В декабре 2022 года мы с солисткой Лорой Монжалей решили углубиться в нейроискусство и создать проект, который совместил бы стандартную видеосъемку, современный танец и технологии нейросети Stable Diffusion. Она бесплатная, работает на открытом коде, а еще ее можно установить локально на несколько компьютеров — в нашем случае на шесть сразу. Мы сразу придумали концепт ролика «Киригами». Название отсылает к разновидности оригами, в котором допустимо использование режущих предметов.

Перед съемками мы решили провести небольшое исследование, чтобы понять, как человеческий мозг воспринимает видеоконтент, обработанный с помощью нейросетей. Мы показывали людям примеры уже существующих роликов и опрашивали их — 65% заявили, что такие видео перегружены информацией.

Пример ролика, сгенерированного нейросетью
Пример ролика, сгенерированного нейросетью

Картинка очень быстро меняется, поэтому человеческому глазу тяжело зацепиться за что-то одно. Из-за этого у зрителей пропадает желание смотреть ролик дальше. Кроме того, мы изучили современные исследования и узнали, что первые 15 секунд — ключевые для удержания зрительского внимания.

Так мы пришли к выводу, что зрители еще не готовы воспринимать видеоряд, который целиком сгенерирован или обработан искусственным интеллектом. От идеи мы не хотели отказываться, поэтому начали думать, как создать что-то смелое, но все же доступное для широкой аудитории.

Съемки

Наш режиссер Андрей Горлачев предложил сосредоточиться на плавных переходах — от реальной съемки к кадрам, которые обработала нейросеть. Мы решили, что такой визуальный прием облегчит восприятие картинки. Хотелось сделать так, чтобы зритель очутился в привычном для себя пространстве, а потом попал в мир искусственного интеллекта.

Оборудование, которые мы использовали для съемки:

  1. Беззеркальная камера Sony A7S 3.
  2. Объектив Tamron 17—28mm f/2.8.
  3. Электронный стабилизатор DJI Ronin RS2.
  4. Световые приборы GreenBean.

Первая попытка. Лора придумала танец, а мы сняли его в обычном танцевальном зале и обработали несколько кадров в нейросети. Благодаря первому тесту стало ясно, что нейросеть лучше работает с исходниками видео в высоком разрешении, без цифрового шума, пикселей и с картинкой с высокой выдержкой. Но результат нас все же не устроил — мы решили добавить движений камеры и поменять локацию.

Забавно, что нейросеть распознает задний план как шкаф и заполняет его книгами
Забавно, что нейросеть распознает задний план как шкаф и заполняет его книгами

Вторая попытка. Второй ролик мы сняли на лестничной площадке с использованием ручной камеры — получилось неудачно.

Зато мы вновь провели работу над ошибками и сделали правильные выводы. Например, поняли, что во время съемки нужен штатив или стабилизатор. Композиция должна быть минималистичная и не перегруженная объектами, а танцовщица — одета в однотонную одежду.

Явная перегруженность картинки
Явная перегруженность картинки

Третья и четвертая попытки. Казалось, с третьего раза у нас все получится. Мы нашли новую минималистичную локацию и выставили свет, чтобы добавить в композицию теневой рисунок. Команда была уверена, что снимает финальную версию ролика.

Увы, результат вновь разочаровал: картинка все равно осталась перегруженной. Тогда стало ясно, что лучший вариант — первый тест, черно-белый и в танцевальном зале.

После нескольких дней обсуждений мы поняли, как исправить перегруженность картинки. Нужно было создать контраст между фоном и танцовщицей и хорошо осветить площадку, чтобы избавиться от теней. Четвертый тест оказался успешным — после него мы наконец-то сняли финальный вариант ролика.

Третья, «финальная» съемка оказалась очередной пробой пера
Третья, «финальная» съемка оказалась очередной пробой пера
Четвертый тест порадовал
Четвертый тест порадовал

Работа с нейросетью

После удачной съемки в студии начался этап постпродакшена — тот самый момент, когда нейросеть стала полноценным соавтором ролика.

Оборудование, которые мы использовали для работы с нейросетью и монтажа видео:

  1. ПК с видеокартой GeForce RTX 3080 12 Гб.
  2. Пять ПК с видеокартами GeForce RTX 3060 12 Гб.
  3. Нейросеть Stable Diffusion.
  4. Adobe Premiere Pro.
  5. Ableton Live.

Постпродакшен ролика проходил поэтапно. Сначала мы экспортировали исходник видео в виде png-секвенции: из 130 секунд получилось 3250 кадров. Массив кадров поместили в Stable Diffusion и к каждому применили разработанную заранее «бумажную» стилистику. Запрос хотим оставить в секрете. После этого запустили рендер — он шел 10 часов на шести компьютерах одновременно. Наконец, смонтировали сгенерированные изображения и исходное видео с применением плавных переходов.

Отдельно отмечу, что аудиодорожка также влияет на перегруженность ролика, как и видеоряд. Поэтому мы решили самостоятельно написать музыку для видео, а в бите использовать эффекты разрезания и комкания бумаги.

Получившийся ролик

Реакция зрителей

Нейросети очень быстро развиваются — каждый день появляются новые технологии и созданные с их помощью произведения искусства. Мы старались как можно скорее закончить ролик и показать что-то, что еще никто не видел. Очень боялись опоздать на поезд хайпа. Но зрители тепло приняли нашу работу. Приятно, что мы также получаем много фидбэка от танцоров и хореографов. Даже не ожидали, что будет столько положительных отзывов и мы представим «Киригами» по телевидению и радио.

Благодаря ролику мы познакомились со многими цифровыми художниками и блогерами, которые занимаются освещением работы искусственного интеллекта. Для меня стало открытием, насколько приятное и нетоксичное комьюнити у медиахудожников. В нем царит приятная и дружественная атмосфера, где можно обратиться за технической поддержкой, помощью, взаимным пиаром и качественной критикой. Такого практически не встретишь в других творческих сферах — например, среди фотографов.

Есть и неожиданные итоги: недавно нам написала аспирантка Высшей школы экономики, которая занимается научным материалом о связи современной хореографии и видеоискусства — пластических и цифровых экспериментов. Она планирует использовать «Киригами» в качестве одного из источников исследования. Для нас это большой комплимент.

Что дальше

Все в нашей студии уверены, что искусственный интеллект уже преодолел точку, когда нейросети создавали лишь забавные картинки. Они уже стали полноценным соавтором и способны помогать человеку в поиске новых форм самовыражения — как в рекламном бизнесе и искусстве, так и в повседневности.

И все же не покидает чувство, что сегодня с искусственным интеллектом и сгенерированным им контентом всерьез работают лишь смельчаки — эдакие пионеры и евангелисты области. Наша студия относит себя к ним, и мы всегда рады работать с единомышленниками.

Сейчас одна из приоритетных задач команды — показать предпринимателям, художникам и музыкантам, как они могут использовать искусственный интеллект в бизнесе.

Например, вместе с крупным медиахолдингом мы сделали нейрооткрытки к 8 Марта. Они символизировали приход весны и Международный женский день. Мы хотели создать образ, который сливает воедино внешность 50 сотрудниц медиахолдинга. Получился красочный 20-секундный ролик, который в течение недели показывали на медиаэкранах 20 городов России — от Москвы до Тюмени. Очень надеемся, что таких экспериментов в ближайшее время станет больше.


РедакцияЧто вам понравилось в генерации и что бы вы изменили?
  • bubaВ этой ситуации смущает только то, что нейросеть учится же на готовых работах. И по итогу эффекты в ролике это имитация чьего-то художественного стиля. Знаю, что у многих художников существуют претензии к нейросетям, которые копируют их авторский стиль.0
  • Александр Жигановlagrange, Вы описали одну из самых популярных претензий, которая крайне легко парируется: люди точно так же учатся на работах других людей. Художники во время своего обучения ходят по музеям и досконально изучают картины вплоть до мазков. Многие музеи разрешают художникам поставить мольберт и копировать висящую на стене работу. Например, месяц назад, в музее Прадо в Мадриде, я за один заход увидел 4 художника, которые практиковались на различных работах. Когда я учился на кафедре Фотомастерства в вузе, при изучении репортажа невозможно было обойти стороной работы Анри Картье-Брессона. Ничего не создается из вакуума.1
  • bubaАлександр, да, это действительно так. Весь мир - один большой гипертекст. Но есть все же разница между буквальным подражанием и оммажем на тему. В любом случае, как я понимаю, предстоит решить еще множество тонкостей в области авторского права применительно ИИ. Но, как мне кажется, для начала можно улучшить ситуацию, указывая, какой конкретно запрос со всеми параметрами был передан нейросети. Как в научной публикации.1
  • Александр Жигановlagrange, вот тема авторского права — это уже совсем другой вопрос, очень интересный. Активно общаемся на эту тему с коллегами и юристами. Одна подруга даже магистерскую защищает на эту тему! Про указание параметра промпта: у Midjourney и Adobe Firefly, например, как раз это правило и используется.2
  • Алёна ДоронинаИИ - это, конечно, свежий глоток воздуха для творчества и вдохновения. Очень часто для работы использую в качестве поддержки и какого-то взгляда со стороны (работаю бренд-менеджером). Упаковки, рекламные кампании, новые бренды... иногда даже представить себе не можешь то, что визуально может выдать современная технология. Конечно нужно идти дальше, искать больше применения, использовать в бизнесе и вдохновляться, вдохновляться и еще раз вдохновляться.0

Вот что еще мы писали по этой теме