Я профессионально генерирую изображения в нейросети и считаю, что это тоже искусство

Я профессионально генерирую изображения в нейросети и считаю, что это тоже искусство

Рассказ читателя
42

Это история из Сообщества. Редакция задала наводящие вопросы, бережно отредактировала и оформила по стандартам журнала.

Аватар автора

Лев Переулков

стал мастером нейросетей

Страница автора

Я уже давно занимаюсь виральными проектами в интернете.

В 2015 году мы с другом придумали проект 2D Among Us и вставляли персонажей из аниме, мультфильмов и кино на фотографии из России. Внезапно наше творчество стало популярным — о нас даже писали интернет-издания вроде TJournal.

Позже мы основали схожий проект MXD, в котором скрещивали поп-культурные и исторические образы с реальностью. Например, показывали, как мог выглядеть провинциальный киберпанк, или накладывали супрематические композиции поверх обычных фотографий.

Одна из работ 2D Among Us
Цифровой коллаж MXD

Для меня это было чем-то вроде публикации мемов. А журналисты писали обо мне, используя громкое слово «художник». Из-за этого я и начал думать о себе как о художнике и даже изучать современное искусство.

Тогда же мои работы стали попадать в художественные галереи. К примеру, их выставляли в МАММ и на лондонских станциях Паддингтон и Виктория в рамках крупного арт-проекта.

Как я познакомился с нейросетями

Три-четыре года назад моя подруга, ML-программистка, постоянно рассказывала мне о диффузионных нейросетях. Я сразу заинтересовался машинным обучением, но тогда с нейросетями работали лишь «продвинутые пользователи ПК» и владельцы очень мощных компьютеров.

В августе 2022 года у Stable Diffusion состоялся публичный релиз. За несколько лет мы дошли до точки, когда нейросеть можно развернуть одним кликом на ноутбуке с бюджетной видеокартой на 8 Гб памяти. Я сразу решил установить нейросеть, хотя тогда она работала только через командную строку. С тех пор Stable Diffusion обросла веб-интерфейсами, расширениями и новыми методами работы. Например, в феврале 2023 года вышел инструмент ControlNet, с помощью которого можно копировать позу человека с кадра, создавать карту глубины изображения или очертания предметов.

Так выглядит локальный запуск Stable Diffusion
Так выглядит локальный запуск Stable Diffusion
Интерфейс Stable Diffusion в одной из поздних сборок
Интерфейс Stable Diffusion в одной из поздних сборок

А еще со временем появилась возможность дообучать нейросеть самостоятельно. Это важный инструмент для художников и дизайнеров, ведь с его помощью можно генерировать изображения в определенном стиле. Осенью 2022 года я впервые его использовал — для теста взял фотографии кота друга, которого зовут Кокос.

На обучение модели я потратил три-четыре попытки — на каждую уходит около часа. Проблемы возникали из-за того, что я тратил на это слишком много или, наоборот, слишком мало времени. А еще брал однотипные фотографии кота.

Почти на всех фотографиях Кокос лежит
Нейрококосы

Инструкцию я нашел на «Ютубе», но в процессе корректировал настройки. Дело в том, что мы до сих пор точно не знаем, как нейросети работают внутри. Лишь методом проб и ошибок мне удалось нащупать баланс, когда нейросеть генерирует объект и экспериментирует со стилем. Так я пришел к выводу, что модель работает лучше, если уменьшить датасет.

С релиза Stable Diffusion я обучил уже девять собственных моделей. Допустим, если мне не хватает русской эстетики, я могу ее добавить. Мой ноутбук с видеокартой GeForce 3080 RTX 16 Гб справляется с дообучением всего за полтора часа — для этого достаточно отобрать от 20 до 40 картинок и правильно описать их.

Что я генерирую в Stable Diffusion

Я стараюсь думать о нейросетях как о новом медиуме. Раньше люди не могли моментально воссоздавать фотографии: для этого приходилось тратить недели на кропотливую работу в 3D. Способность генерировать изображения — огромный шаг в развитии культуры.

Диффузионные нейросети многое говорят о нашей культуре, памяти и мышлении. Они тоже создают образы из шума — как ребенок, который видит лица в обоях с цветочками. Нейросети могут усреднить эстетику, визуализировать наши мысли и изменить то, чем мы вдохновляемся.

На мой взгляд, Stable Diffusion на голову выше других нейросетей. Midjourney дает мало доступа к самому процессу, поэтому и генерации там имеют свой выраженный стиль — красивый, но скучный. Там легче сгенерировать красиво какой-нибудь сюрреалистичный пейзаж или эклектичного робота, а вот обучить конкретному символу или элементу невозможно. Там я генерировал мало, потому что мне даже не хотелось привыкать к инструменту с закрытым кодом. Другое дело — Stable Diffusion. Это нейросеть с открытым кодом, поэтому инструментов для самовыражения здесь намного больше. Обучение и кастомизация — ее главные преимущества.

Вот несколько серий, которые я создал в нейросетях.

Усредненная Россия на «пленочных» снимках. В «Нейрогалерее» Т⁠—⁠Ж я опубликовал серию пленочных кадров, созданных под вдохновением от снимков известных фотографов — Елены Чернышовой, Георгия Пинхасова и Александра Гронского. Она называется «Это все так знакомо, но этого никогда не было».

Раньше я занимался фотографией — изучал теорию, снимал для местного издания и для себя. Благодаря опыту отобрал неплохой датасет для обучения нейросети — даже тогда я напрямую влиял на результат. К примеру, брал свой кадр с деревянным зданием — это давало общее направление визуальной эстетике. Думаю, художники всегда мечтали о таком контроле за процессом.

Слева — мой снимок из датасета, справа — генерация
Слева — мой снимок из датасета, справа — генерация
Для 10 итоговых картинок я сгенерировал сотни и тысячи кадров
Для 10 итоговых картинок я сгенерировал сотни и тысячи кадров

Во время работы я понял, что нейросеть плохо воссоздает стиль Александра Гронского: он фотографировал пейзажные снимки с мелкими деталями. Лучше всего у нее получается что-то камерное. Например, характерная продавщица за прилавком или заснеженная комната. Приходится корректировать желания из-за ограничений модели, так что, на мой взгляд, здесь появляется элемент соавторства.

Благодаря опыту создания цифровых коллажей получилось доработать изображения. Из нескольких тысяч генераций я отобрал лучшие и подправил детали: изменил цветокоррекцию, подправил анатомию людей, дорисовал следы на снегу. Так что в серии есть и мой отпечаток.

Мы живем в спальных районах, где на каждом углу стоят панельные здания. Об этом ничего не скажет американская культура. Людям нужно как-то осмыслить фундаментальные вещи рядом: архитектуру, политику, религию и эстетику. Думаю, поэтому художники и музыканты вдохновляются постсоветской меланхолией и культурой девяностых.

Главное — я добился идеи, которую нельзя было сделать без нейросетей. Мне было важно, чтобы фотографии оставались вымышленными, не привязанными к реальности.

Изображения из серии «Это все так знакомо, но этого никогда не было»
Изображения из серии «Это все так знакомо, но этого никогда не было»
Изображения из серии «Это все так знакомо, но этого никогда не было»

VHS-записи. Недавно дообучил модель на семейных VHS-записях — эта серия оказалась для меня самой личной. Я просмотрел 15 Гб архивов, а отобрал всего лишь 60 кадров. У меня было две цели: скопировать эстетику старых записей, а еще воссоздать интерьеры и моду ушедшей эпохи.

Модель получилась интересной. От разрешения картинки менялся стиль — чем оно меньше, тем сильнее VHS-эффект. Из-за артефактов и глитчей сгенерированные изображения выглядят даже убедительнее, чем обычные кадры. Правда, я не учел при сборе датасета текст и индивидуальные особенности камеры, так что модель всегда добавляет черную полосу внизу, а иногда — вымышленные даты и случайные цифры.

Мне кажется, это тоже что-то новое — эдакий взгляд в альтернативную реальность, где машина создает ложные воспоминания, опираясь на реальный материал. Считаю, что уже через десять лет наша визуальная культура расширится — кардинально изменится то, как мы выражаем идеи.

Часть реального датасета со мной — записи детского утренника
VHS-генерации

Почему мне кажется, что нейросети — не воровство

Нейросети в одних руках — бездумный автомат по воспроизводству аниме-картинок, в других — полезный инструмент, чтобы донести новую идею. От цели меняется роль человека, который ее использует.

К примеру, существует разная степень влияния на генерации. В своих сериях я контролирую многое: тщательно отбираю картинки из тысячи вариантов, объединяю их и дорабатываю. Процесс генерации иногда напоминает мне съемку: ты тщательно ищешь место, всматриваешься в детали, выжидаешь нужный момент. Только все это перед ноутбуком. Я вижу здесь больше свободы и меньше рутины, ведь мне не нужно моделировать, текстурировать и собирать образ.

Набросок
Набросок
Генерация
Генерация
1/2
Набросок

Проще говоря, другой человек по схожему запросу получил бы абсолютно другой результат, ведь он обладает уникальным опытом, мировоззрением и вкусом. Но не все это понимают.

Однажды я опубликовал в «Твиттере» экспериментальные генерации собственной модели, которую обучил на картинах московских концептуалистов. В ответ получил десятки реплаев с критикой: меня обвиняли в воровстве. Хотя разница между датасетом и результатом колоссальная, ведь я пытался добиться уникального результата.

В датасете не было церкви с вопросительным знаком или звезд на лице
В датасете не было церкви с вопросительным знаком или звезд на лице
1/2
В датасете не было церкви с вопросительным знаком или звезд на лице
В датасете не было церкви с вопросительным знаком или звезд на лице

Я считаю, что нейросеть можно обучить набору приемов или эстетике, но не конкретному стилю. Она, как и живой человек, тренируется на чужом опыте, но в итоге создает что-то новое.

Плагиатом можно считать только то, что выглядит как нечто откровенно вторичное и ворованное. Фразы «сгенерировано нейросетью» недостаточно для обвинений.

Почему я думаю, что нейросети не заменят человека

Я уверен, что нейросети повлияют на рынок труда в тех сферах, где автор не имеет значения. Посмотрите вокруг — нас окружает дизайн без имени: узор на обоях, орнамент на подушке, картинка на упаковке хлопьев, иллюстрации в простой детской книжке и некоторые обложки к материалам Т⁠—⁠Ж.

Конечно, у каждого из этих изображений есть автор, но ведь нам важен итог его работы, а не контекст. Иллюстрации детских книг должны веселить ребенка, объяснять ему сюжет и учить — не больше.

Обложки для материалов Т⁠—⁠Ж, которые я сгенерировал в нейросетях
Обложки для материалов Т⁠—⁠Ж, которые я сгенерировал в нейросетях

Рынок непременно выберет нейросети, если они окажутся эффективнее. Только художники и иллюстраторы никуда не уйдут. Все равно нужен будет человек, который сумеет сформулировать запрос и отобрать лучшие генерации.

Конечно, конкуренция усилится, а где-то произойдет полная автоматизация. Но это не касается тех сфер, где важен бренд.

Есть сотни качественных репродукций Рембрандта, но бесценны только оригиналы.

Когда мы стоим перед настоящей картиной, мы держим в голове биографию автора и сотни лет истории, поэтому наше восприятие меняется.

Так что нейросети повлияют на рынок, но точно не заменят человека и личность. Нечего бояться тем, у кого есть настоящий опыт, интересные концепции и собственный подход. Между рассказом человека, который побывал в тюрьме и оказался на грани смерти, и искусственного разума, который знает тему только по книгам, я выберу первое.

Будущее нейросетей

Недавно один из разработчиков Stable Diffusion написал, что мы находимся только в начале пути. Он сравнил происходящее с первым поколением Айфона. В следующие десять лет нейросети продолжат развиваться и менять культурный ландшафт.

Adobe уже использует пользовательский контент на Behance для машинного обучения. Скорее всего, в какой-то момент они встроят диффузионные нейросети в свои программы. Они станут нормой и обычным инструментом — таким же, как штамп в Photoshop.

Мои друзья-художники используют плагины на основе Stable Diffusion и не рассказывают об этом аудитории. Это не значит, что так будет поступать каждый. Останутся и те, кто продолжит рисовать все от руки, но свой метод работы им придется превратить в некий жест, акцию — добавить контекст и открыто заявить о соревновании с нейросетью.

Схожий процесс человечество уже проходило с фотографией. Частично из-за этого появился импрессионизм — стиль в живописи, где уже не так важна проработка деталей. На первое место в ней выходят субъективный взгляд, эмоции и личность автора.

Нейросети без самоосознания останутся только инструментом, который убирает рутину и сокращает путь от концепции к реализации. Вряд ли неолуддиты и противники технологии остановят прогресс — свое слово скажет рынок. Человечество никогда откажется от того, что может упростить жизнь.

Лев ПереулковКак вы считаете, нейросети воруют чужое творчество?
  • friendЯ вот думаю у меня скоро зависимость от одной нейросети начнется)) Вообще мне кажется это крутая штука и я соглашусь с автором, что нейросеть это только новый инструмент в работе и творчестве.8
  • Artem 🤑Жаль, что проект 2D Among Us загнулся7
  • салам пополамстатья хорошая, но как мльщик хочу докопаться до фразы "три-четыре года назад моя подруга постоянно рассказывала мне о диффузионных нейросетях". первая статья статься по генеративным диффузионкам вышла только в 2020, при чем такого хайпа не было, чтобы кто-то ходил и сразу рассказывал о ней своим и друзьям. только в 2021-2022 диффузионки стали в тренде.5
  • Фраза «современный художник» заиграла по-новому :)4
  • Марк Николаевсалам, "Диффузионные нейросетевые модели появились в 2015 году, но набрали популярность только в 2020 году после работы Ho et al."3
  • Пухоспинка ЦарственнаяТак вот кто автор паблика, из которого я бесконечно добавляла картинки в сохраненные. Класс)1
  • Тест ДрайвКажется, текст тоже писала нейросеть, а автор корректировал, но что-то пропустил 😉2
  • LewenBauДа, да, расскажи ХУДОЖНИКАМ, которые потратили годы и силы на творчество, академизм, что нажимать на кнопочки — тоже искусство)))1
  • Lexa LexaЯ тоже профессионально генерирую комментарии.2
  • VADИскусство принадлежит народу и SkyNet - мы это видели ещё в 90х.1
  • BuTeK asdasdДержи в курсе0
  • Полиция Т—ЖMaxim, отличный навык, но вам стоит ознакомиться с нашими правилами. Обратите внимание на шестой пункт: https://journal.tinkoff.ru/comments-rules/3
  • Dmitrii SuurinАбзац про набор приёмов и эстетику, ошибочен, ведь они входят в совокупность факторов определяющих стиль. Отсюда идёт ошибка определения прав на объект. В данном случае необдуманный подбор датасета может нарушить авторское право и извратить изначальную идею автора. Однозначно вашы работы мне нравяться, чувствуется культура, к вам претензий нет. Но есть но, инструменты защиты авторов от предприимчивых сограждан пока не развиты в должной мере(в постсоветском пространстве еще хуже) , и в массе своей это есть и будет воровство. Какая доля контентмейкеров предпочтет тратить десятки лет на создание уникального стиля, его прожевывание, переживание и восприятие, вместо продвинутого копипаста по запросу за пару часов. Тут фраза "рыночек порешал" и суть выразит и отразит ситуацию усредненного необдуманного мнения. Инструмент безусловно классный, вопрос как воспримет общество порой откровенно не осознанное поверхностное представление обывательских идей.4
  • Мария СевостьяноваВсе верно, процесс такой же, как с фотографией. В свое время за зеркалу взялся любой, у кого работала хотя бы одна рука. И на пару реальных фотохудожников, которые реально создавали искусство, пришёлся десяток тысяч обывателей, которые просто выложили фото своей девушки/кошки/заката на даче.4
  • Axxx XxxxФёдор, некоторые повара действительно создают произведения искусства, но не для таких, как вы, а для тех, кто способен это воспринять и с наслаждением оценить. Но вахтершам-то что? Я не поддерживаю автора статьи и не считаю, что он занимается искусством, но очень обидно за шеф-поваров, чьи блюда - поистине искусство.0
  • Максим МухарёвВячеслав, ChatGPT?0
  • Максим МухарёвНикита, искусство - это ракурс, а не количество затраченных лет. Так бывает, что кто-то может сразу, со старта. Это талант 🤗0
  • friendМаксим, смотрел недавно ролик с учёным в области машинленинга и он сказал что это технология уровня изобретения интернета. По его мнению в ближайшие 5 лет стиль жизни сильно изменится. Громкое заявление, но в целом после презентации GPT-4 и скорому релизу его API звучит правдоподобно. С другой стороны сделал беглый опрос знакомых из айти и почти никто не пользуется пока им в работе, что для меня звучит диковато.1
  • РинатНейросеть не может воровать. Воровство - понятие применимо только человеку, что и будет процветать в ближайшее время. Заимствование, так это будет называться ибо лучший адвокат для человека он сам.2
  • ЮрийСейчас это может быть неочевидно, но скорее всего в будущем придётся предъявлять обучающую выборку, чтобы доказать, что там не было объектов, защищённых авторским правом. Не исключено, что появятся нейросети, которые будут искать признаки того, что определенные объекты использовались в обучении нейросети, которая сгенерировала определенное изображение. Как сейчас ютуб ищет плагиат. Аксиома про то, что нейросети никогда не смогут заменить человека - это явное wishful thinking. Нейросети уже сейчас могут по текстовому описанию генерировать изображения, при этом качество генерации, разнообразие и другие параметры будут неизбежно улучшаться, и подавляющему большинству людей этого будет вполне достаточно. При этом результат видно почти сразу, что очень удобно для экспериментирования различных идей. Желающие платить много денег и долго ждать результата (который далеко не факт что будет лучше или даже уникальнее), конечно, будут всегда, но это будет очень нишевый продукт. Если уж на то пошло, живой художник - это тоже нейронная сеть, более мощная, но и менее специализированная, которой приходится заниматься другими вопросами. Рано или поздно нас всех заменят роботами и нейросетями, и настанет коммунизм )1
  • Григорий ОвсянниковЮрий, Вопрос ведь совсем не в качестве картинки. Мы же это осознаём? "Чёрный квадрат", Малевич. С точки зрения самого изображения там ничего такого, верно? Но вместо этого там есть ИДЕЯ. То, с чем у нейросетей самих по себе пока проблемы.0
  • ЮрийГригорий, подавляющему большинству пользователей, про которых я говорю, "продать" идею квадрата Малевича невозможно. Это для небольшой прослойки ценителей, как я и сказал.1
  • Сергей Матвеевнет это общественное достояние, если появилось в сети.0
  • Генерал ФиговНет это не искусство.0
  • Dmitrii ZalukaevНет0
  • Natalia MatheuНет, они так же, как люди, пользуются имеющимся опытом, полученным в результате обучения. Концентрируют знания, классифицируют их, затем в нужный момент выкладывают так, как их обучили. Так как делают они это по запросу человека, который хочет что-то создать, то именно этот запрос может обладать авторскими правами, и то, что представит нейросеть - полностью его произведение. Нейросеть сейчас - это такой же инструмент, как клавиатура, кисть, музыкальный инструмент...0
  • Natalia MatheuMaxim, уже есть такие, которые лепят из подручного материала. И да, считают себя скульпторами. А писателем считает себя каждый второй, кто может постучать по клаве.0
  • Natalia MatheuЮрий, :-)0
  • Natalia MatheuВладимир, ИИ уже обучается выражать эмоции. И сам по себе он не создает, только по требованию мастера, который знает, что хочет получить.0
  • Natalia MatheuФёдор, да, повара считают и вполне заслуженно. Процесс создания еды и культура ее подачи - это искусство.1
  • Natalia MatheuЛука, а разве мы ее не генерируем? Я трижды замуж выходила, в последний раз сгенерировала то, что желала всю жизнь. А уж сколько вариантов в целом сгенерила! ;-)0
  • МайяВы совершенно точно отразили происходящее, возможности нейросетей и роль человека в техническом прогрессе. Конечная работа в нейросети зависит только от человека. Поэтому воровства здесь нет и быть не может. Нейросети - всего лишь новый инструмент, а то, как воспользуется тот или иной человек/художник этим инструментом, зависит от уровня его развития и миропонимания. Спасибо за интересную статью0
Вот что еще мы писали по этой теме