Я профессионально генерирую изображения в нейросети и считаю, что это тоже искусство
Это история из Сообщества. Редакция задала наводящие вопросы, бережно отредактировала и оформила по стандартам журнала.
Я уже давно занимаюсь виральными проектами в интернете.
В 2015 году мы с другом придумали проект 2D Among Us и вставляли персонажей из аниме, мультфильмов и кино на фотографии из России. Внезапно наше творчество стало популярным — о нас даже писали интернет-издания вроде TJournal.
Позже мы основали схожий проект MXD, в котором скрещивали поп-культурные и исторические образы с реальностью. Например, показывали, как мог выглядеть провинциальный киберпанк, или накладывали супрематические композиции поверх обычных фотографий.
Для меня это было чем-то вроде публикации мемов. А журналисты писали обо мне, используя громкое слово «художник». Из-за этого я и начал думать о себе как о художнике и даже изучать современное искусство.
Тогда же мои работы стали попадать в художественные галереи. К примеру, их выставляли в МАММ и на лондонских станциях Паддингтон и Виктория в рамках крупного арт-проекта.
Как я познакомился с нейросетями
Три-четыре года назад моя подруга, ML-программистка, постоянно рассказывала мне о диффузионных нейросетях. Я сразу заинтересовался машинным обучением, но тогда с нейросетями работали лишь «продвинутые пользователи ПК» и владельцы очень мощных компьютеров.
В августе 2022 года у Stable Diffusion состоялся публичный релиз. За несколько лет мы дошли до точки, когда нейросеть можно развернуть одним кликом на ноутбуке с бюджетной видеокартой на 8 Гб памяти. Я сразу решил установить нейросеть, хотя тогда она работала только через командную строку. С тех пор Stable Diffusion обросла веб-интерфейсами, расширениями и новыми методами работы. Например, в феврале 2023 года вышел инструмент ControlNet, с помощью которого можно копировать позу человека с кадра, создавать карту глубины изображения или очертания предметов.
А еще со временем появилась возможность дообучать нейросеть самостоятельно. Это важный инструмент для художников и дизайнеров, ведь с его помощью можно генерировать изображения в определенном стиле. Осенью 2022 года я впервые его использовал — для теста взял фотографии кота друга, которого зовут Кокос.
На обучение модели я потратил три-четыре попытки — на каждую уходит около часа. Проблемы возникали из-за того, что я тратил на это слишком много или, наоборот, слишком мало времени. А еще брал однотипные фотографии кота.
Инструкцию я нашел на «Ютубе», но в процессе корректировал настройки. Дело в том, что мы до сих пор точно не знаем, как нейросети работают внутри. Лишь методом проб и ошибок мне удалось нащупать баланс, когда нейросеть генерирует объект и экспериментирует со стилем. Так я пришел к выводу, что модель работает лучше, если уменьшить датасет.
С релиза Stable Diffusion я обучил уже девять собственных моделей. Допустим, если мне не хватает русской эстетики, я могу ее добавить. Мой ноутбук с видеокартой GeForce 3080 RTX 16 Гб справляется с дообучением всего за полтора часа — для этого достаточно отобрать от 20 до 40 картинок и правильно описать их.
Что я генерирую в Stable Diffusion
Я стараюсь думать о нейросетях как о новом медиуме. Раньше люди не могли моментально воссоздавать фотографии: для этого приходилось тратить недели на кропотливую работу в 3D. Способность генерировать изображения — огромный шаг в развитии культуры.
Диффузионные нейросети многое говорят о нашей культуре, памяти и мышлении. Они тоже создают образы из шума — как ребенок, который видит лица в обоях с цветочками. Нейросети могут усреднить эстетику, визуализировать наши мысли и изменить то, чем мы вдохновляемся.
На мой взгляд, Stable Diffusion на голову выше других нейросетей. Midjourney дает мало доступа к самому процессу, поэтому и генерации там имеют свой выраженный стиль — красивый, но скучный. Там легче сгенерировать красиво какой-нибудь сюрреалистичный пейзаж или эклектичного робота, а вот обучить конкретному символу или элементу невозможно. Там я генерировал мало, потому что мне даже не хотелось привыкать к инструменту с закрытым кодом. Другое дело — Stable Diffusion. Это нейросеть с открытым кодом, поэтому инструментов для самовыражения здесь намного больше. Обучение и кастомизация — ее главные преимущества.
Вот несколько серий, которые я создал в нейросетях.
Усредненная Россия на «пленочных» снимках. В «Нейрогалерее» Т—Ж я опубликовал серию пленочных кадров, созданных под вдохновением от снимков известных фотографов — Елены Чернышовой, Георгия Пинхасова и Александра Гронского. Она называется «Это все так знакомо, но этого никогда не было».
Раньше я занимался фотографией — изучал теорию, снимал для местного издания и для себя. Благодаря опыту отобрал неплохой датасет для обучения нейросети — даже тогда я напрямую влиял на результат. К примеру, брал свой кадр с деревянным зданием — это давало общее направление визуальной эстетике. Думаю, художники всегда мечтали о таком контроле за процессом.
Во время работы я понял, что нейросеть плохо воссоздает стиль Александра Гронского: он фотографировал пейзажные снимки с мелкими деталями. Лучше всего у нее получается что-то камерное. Например, характерная продавщица за прилавком или заснеженная комната. Приходится корректировать желания из-за ограничений модели, так что, на мой взгляд, здесь появляется элемент соавторства.
Благодаря опыту создания цифровых коллажей получилось доработать изображения. Из нескольких тысяч генераций я отобрал лучшие и подправил детали: изменил цветокоррекцию, подправил анатомию людей, дорисовал следы на снегу. Так что в серии есть и мой отпечаток.
Мы живем в спальных районах, где на каждом углу стоят панельные здания. Об этом ничего не скажет американская культура. Людям нужно как-то осмыслить фундаментальные вещи рядом: архитектуру, политику, религию и эстетику. Думаю, поэтому художники и музыканты вдохновляются постсоветской меланхолией и культурой девяностых.
Главное — я добился идеи, которую нельзя было сделать без нейросетей. Мне было важно, чтобы фотографии оставались вымышленными, не привязанными к реальности.
VHS-записи. Недавно дообучил модель на семейных VHS-записях — эта серия оказалась для меня самой личной. Я просмотрел 15 Гб архивов, а отобрал всего лишь 60 кадров. У меня было две цели: скопировать эстетику старых записей, а еще воссоздать интерьеры и моду ушедшей эпохи.
Модель получилась интересной. От разрешения картинки менялся стиль — чем оно меньше, тем сильнее VHS-эффект. Из-за артефактов и глитчей сгенерированные изображения выглядят даже убедительнее, чем обычные кадры. Правда, я не учел при сборе датасета текст и индивидуальные особенности камеры, так что модель всегда добавляет черную полосу внизу, а иногда — вымышленные даты и случайные цифры.
Мне кажется, это тоже что-то новое — эдакий взгляд в альтернативную реальность, где машина создает ложные воспоминания, опираясь на реальный материал. Считаю, что уже через десять лет наша визуальная культура расширится — кардинально изменится то, как мы выражаем идеи.
Почему мне кажется, что нейросети — не воровство
Нейросети в одних руках — бездумный автомат по воспроизводству аниме-картинок, в других — полезный инструмент, чтобы донести новую идею. От цели меняется роль человека, который ее использует.
К примеру, существует разная степень влияния на генерации. В своих сериях я контролирую многое: тщательно отбираю картинки из тысячи вариантов, объединяю их и дорабатываю. Процесс генерации иногда напоминает мне съемку: ты тщательно ищешь место, всматриваешься в детали, выжидаешь нужный момент. Только все это перед ноутбуком. Я вижу здесь больше свободы и меньше рутины, ведь мне не нужно моделировать, текстурировать и собирать образ.
Проще говоря, другой человек по схожему запросу получил бы абсолютно другой результат, ведь он обладает уникальным опытом, мировоззрением и вкусом. Но не все это понимают.
Однажды я опубликовал в «Твиттере» экспериментальные генерации собственной модели, которую обучил на картинах московских концептуалистов. В ответ получил десятки реплаев с критикой: меня обвиняли в воровстве. Хотя разница между датасетом и результатом колоссальная, ведь я пытался добиться уникального результата.
Я считаю, что нейросеть можно обучить набору приемов или эстетике, но не конкретному стилю. Она, как и живой человек, тренируется на чужом опыте, но в итоге создает что-то новое.
Плагиатом можно считать только то, что выглядит как нечто откровенно вторичное и ворованное. Фразы «сгенерировано нейросетью» недостаточно для обвинений.
Почему я думаю, что нейросети не заменят человека
Я уверен, что нейросети повлияют на рынок труда в тех сферах, где автор не имеет значения. Посмотрите вокруг — нас окружает дизайн без имени: узор на обоях, орнамент на подушке, картинка на упаковке хлопьев, иллюстрации в простой детской книжке и некоторые обложки к материалам Т—Ж.
Конечно, у каждого из этих изображений есть автор, но ведь нам важен итог его работы, а не контекст. Иллюстрации детских книг должны веселить ребенка, объяснять ему сюжет и учить — не больше.
Рынок непременно выберет нейросети, если они окажутся эффективнее. Только художники и иллюстраторы никуда не уйдут. Все равно нужен будет человек, который сумеет сформулировать запрос и отобрать лучшие генерации.
Конечно, конкуренция усилится, а где-то произойдет полная автоматизация. Но это не касается тех сфер, где важен бренд.
Есть сотни качественных репродукций Рембрандта, но бесценны только оригиналы.
Когда мы стоим перед настоящей картиной, мы держим в голове биографию автора и сотни лет истории, поэтому наше восприятие меняется.
Так что нейросети повлияют на рынок, но точно не заменят человека и личность. Нечего бояться тем, у кого есть настоящий опыт, интересные концепции и собственный подход. Между рассказом человека, который побывал в тюрьме и оказался на грани смерти, и искусственного разума, который знает тему только по книгам, я выберу первое.
Будущее нейросетей
Недавно один из разработчиков Stable Diffusion написал, что мы находимся только в начале пути. Он сравнил происходящее с первым поколением Айфона. В следующие десять лет нейросети продолжат развиваться и менять культурный ландшафт.
Adobe уже использует пользовательский контент на Behance для машинного обучения. Скорее всего, в какой-то момент они встроят диффузионные нейросети в свои программы. Они станут нормой и обычным инструментом — таким же, как штамп в Photoshop.
Мои друзья-художники используют плагины на основе Stable Diffusion и не рассказывают об этом аудитории. Это не значит, что так будет поступать каждый. Останутся и те, кто продолжит рисовать все от руки, но свой метод работы им придется превратить в некий жест, акцию — добавить контекст и открыто заявить о соревновании с нейросетью.
Схожий процесс человечество уже проходило с фотографией. Частично из-за этого появился импрессионизм — стиль в живописи, где уже не так важна проработка деталей. На первое место в ней выходят субъективный взгляд, эмоции и личность автора.
Нейросети без самоосознания останутся только инструментом, который убирает рутину и сокращает путь от концепции к реализации. Вряд ли неолуддиты и противники технологии остановят прогресс — свое слово скажет рынок. Человечество никогда откажется от того, что может упростить жизнь.