Как я полюбил Midjourney и теперь делаю картинки, которые расходятся по всему интернету

Александр Доброкотов — о том, как найти через ИИ-искусство собственный стиль и аудиторию

39
Как я полюбил Midjourney и теперь делаю картинки, которые расходятся по всему интернету
Аватар автора

Александр Доброкотов

рассказал о цифровом арте

Страница автора
Аватар автора

Даша Лейзаренко

задавала вопросы

Страница автора

Цифровой художник превращает «Бригаду» в аниме, а «Простоквашино» — в американский ситком.

Он выпустил уже десяток проектов со сгенерированными в нейросетях картинками. На канал Доброкотова Ai Molodca подписаны 17 тысяч человек, но гораздо чаще его работы можно встретить в крупнейших пабликах, соцсетях, СМИ и вообще по всему рунету. Большинство изображений художник генерирует в Midjourney. Нейросеть не требует навыков программирования или глубоких познаний. Но требуется много времени и сил, чтобы подобрать запросы и сформировать собственный узнаваемый стиль.

Мы поговорили с Александром Доброкотовым о том, как он познакомился с нейросетями и придумал авторский метод генерации картинок, которым пользуются другие ИИ-художники. И почему всем нужно подружиться с нейросетями.

Как я познакомился с нейросетями

Я работаю креативным директором в рекламном агентстве DADA, управляю командой и стараюсь делать так, чтобы люди не ненавидели рекламу. При этом всегда занимался личными творческими проектами: иллюстрацией, блогами, видео, арт-пабликами.

Мои работы 2012 года
Мои работы 2012 года
Мои работы 2012 года
Мои работы 2012 года

Реализация постоянно менялась, потому что идея для меня всегда была важнее формы. Сейчас же наступила новая эпоха креативности: нейросети дали идеальный инструмент для реализаций идей в любом виде.

Работа в рекламе обязывает быть в авангарде культуры и технологий. Поэтому еще в 2015 году, когда Google выпустил DeepDream, я преобразовал несколько картинок в сюрреалистичные фракталы из собак — больше сервис ничего не умел. После этого забыл про нейросети на несколько лет, лишь иногда почитывал информацию о новинках.

Пример работы DeepDream
Пример работы DeepDream

В январе 2022 года в телеграм-канале Denis Sexy IT я увидел работы, сгенерированные с помощью Dall-E. Это первая нейросеть от компании OpenAI, которая умела «рисовать» качественные картинки по текстовому описанию.

Попробовать нейросеть тогда было нельзя, она находилась в закрытой бете. Но даже демонстрация возможностей — превращение текста avocado armchair в авокадное кресло — выглядела настоящей магией.

Авокадное кресло в Dall-E
Авокадное кресло в Dall-E

Стало понятно, что картиночные нейросети взорвут интернет, но я не предполагал, что это произойдет так быстро. В апреле появилась и завирусилась модель Dall-E mini, которая генерировала девять не очень качественных, но узнаваемых картинок.

Плохое качество и доступность понравились интернету. Люди помчались генерировать Око Саурона с газетой, пиццу в посудомоечной машине, Карла Маркса на премии MTV. Тогда и сделал канал, чтобы выкладывать свои генеративные эксперименты и учиться промптингу.

Чебурашки в Dall⁠-⁠E mini. Везде по тексту источник: Александр Доброкотов, канал Ai molodca
Чебурашки в Dall⁠-⁠E mini. Везде по тексту источник: Александр Доброкотов, канал Ai molodca
Чебурашки в Dall⁠-⁠E mini. Везде по тексту источник: Александр Доброкотов, канал Ai molodca
Чебурашки в Dall⁠-⁠E mini. Везде по тексту источник: Александр Доброкотов, канал Ai molodca

Летом 2022 года я получил доступ ко второй версии Midjourney. Модель была на закрытом бета-тестировании, и про нее знали лишь немногие энтузиасты. Качество, мягко говоря, было далеко от того, что спустя больше полугода демонстрирует пятое поколение, но в моменте это было потрясающе.

Я тестировал возможности нейросети и сделал свой первый генеративный проект: представил, как бы выглядел сочный бургер в исполнении известных художников вроде Винсента Ван Гога, Ивана Шишкина, Рене Магритта и других. Серия картинок разошлась по пабликам и попала в СМИ.

Уже с третьей версией Midjourney хитом стала подборка «Нейропанельки». Тестируя возможности, я представил, как выглядели бы дома в самых разных стилях, не только художественных. Сгенерировал пиксельные, вафельные, шоколадные, киберпанковые, адские панельки. И снова попал в новости: об этом писали РБК и даже крупный англоязычный развлекательный сайт BoredPanda.

Ковер
Рококо
Миядзаки
Киберпанк
Рентген
Вафля
Шоколад
Айвазовский
Гигер
Ад

Почему из всех нейросетей я выбрал Midjourney

Среди сервисов для генерации картинок есть два очевидных лидера — Midjourney и Stable Diffusion. Первая — самая удобная, вторая — самая разнообразная и настраиваемая, еще и бесплатная.

Midjourney довольно быстро превратилась в феномен из-за минимального порога вхождения и постоянно растущего качества. Конечно, во многом это заслуга авторов контента. Креативщик-трендсеттер делает вирусный прикол и попадает в новости с заголовком «Midjourney показала…». Это видят люди и думают: «Хочу так же!» И так по экспоненте. Сейчас, когда бесплатные генерации прикрыли, порог вхождения стал сложнее, но этот медийный поезд уже не остановить.

Я получил доступ к закрытой бете модели Stable Diffusion 1.4 примерно одновременно с ростом популярности Midjourney. Сидел в чате энтузиастов канала «Нейроэстетика» и восхищался вместе со всеми. Midjourney на тот момент выдавала по большей части высокий уровень абстракции, да еще и ограничивала в тестовых попытках.

Stable Diffusion же уже тогда была бесплатной и с кучей тонких настроек. Сейчас же это мощнейшая открытая модель, способная при определённом шаманстве закрыть все визуальные потребности. Обучить нейросеть на стиле или объекте, стилизовать видео и сделать анимацию, ретушировать изображения, задать позы, встроить возможность генерации в «Фотошоп» или «Фигму» — все это возможно благодаря множеству плагинов, созданных талантливыми энтузиастами.

Единственный минус — порог вхождения. Непонятно, куда бежать и что нажимать. Про Stable Diffusion пишут везде, но при этом нигде не говорят, как ей пользоваться. Весь инструментарий собран только в интерфейсе Automatic1111 и его аналогах. Но новичку, который ожидает кнопку «Сделать красиво», придется попотеть, чтобы туда попасть и изучить все тонкости.

Если сравнивать две нейросети, то Midjourney — это Mac, а Stable Diffusion — Linux.

В Midjourney все просто и понятно. Нужно только зарегистрироваться в Discord и разобраться там с системой каналов. Все происходит в общих чатах, и если что-то непонятно, можно подсмотреть, что генерируют другие участники сообщества. Единственная сложность — оплатить из России.

Промптинг тоже различается. Midjourney и есть та самая кнопка «Сделать красиво». Нейросеть сразу генерирует картинку с «украшательствами», уродливости добиться там сложно, даже если делать это специально. Даже примитивный промпт из нескольких слов сработает хорошо.

А вот Stable Diffusion — чистый лист. С простым запросом и базовой моделью получить достойный результат сложно. Нужно либо пользоваться одной из дополнительных моделей, заточенной, например, на фотореализм, либо дорабатывать промпты.

Сгенерировал героев российских мемов в Stable Diffusion
Сгенерировал героев российских мемов в Stable Diffusion
Сгенерировал героев российских мемов в Stable Diffusion
Сгенерировал героев российских мемов в Stable Diffusion
Сгенерировал героев российских мемов в Stable Diffusion
Сгенерировал героев российских мемов в Stable Diffusion

Большую часть творческих проектов я реализовал в Midjourney, так как она идеально удовлетворяет критериям качества и скорости. Однако Stable Diffusion более гибка, поэтому я использую ее в некоторых работах.

Одна из моих любимых функций нейросети — обучение. Я несколько раз обучал ее на своих фотографиях, карательной кулинарии и ЖЭК-арте. Это открывает бесконечные возможности для экспериментов и «майонезных змеек» в стиле Клода Моне.

Карательная кулинария в Stable Diffusion
Карательная кулинария в Stable Diffusion
Карательная кулинария в Stable Diffusion
Карательная кулинария в Stable Diffusion
Карательная кулинария в Stable Diffusion
Карательная кулинария в Stable Diffusion

Как обучить Stable Diffusion

Обучение Stable Diffusion не слишком сложное, но с нюансами. Все мы обучались, когда использовали приложение Lensa и генерировали себе аватарки. Есть два пути:

  1. Через интерфейс Automatic1111. Это бесплатно, но сложно. Требуется мощный компьютер или Google Collab. В интернете уже есть множество обучающих материалов.
  2. Через сервис Astria. Это легко, но платно. За несколько долларов вы можете обучить Stable Diffusion, скачать полученную модель и использовать ее в Automatic1111 или любом другом удобном интерфейсе. Для оплаты необходима международная банковская карта.

Dall-E 2 могла бы стать потенциальным конкурентом для двух главных нейросетей. Она появилась до того, как Midjourney и Stable Diffusion стали широко обсуждаться, и по качеству генерации опережала свое время. Но, к сожалению, модель проиграла в медийной гонке. Она долго оставалась в режиме закрытого тестирования и упустила момент, когда такие сервисы стали интересны большой аудитории. Поэтому о Dall-E 2 говорят не так много, как о Midjourney или Stable Diffusion, хотя она также весьма неплоха, особенно функция Outpainting.

Однако модель была интегрирована во все сервисы Microsoft. Например, в Bing картинки генерируются с помощью Dall-E 2.

Как я нашел свой стиль

Я вырос в 90-е, когда новое западное танцевало со старым советским. Поэтому в моем культурном коде панельки, ковры и гопники сосуществуют с фильмами французской новой волны, аниме и Арнольдом Шварценеггером. Это смешение и отражается в творчестве.

Midjourney с четвертой версии как раз позволяет смешивать образы и стили за счет соединения нескольких изображений. На моем канале даже есть рубрика «мешалка», где я смешиваю котов с хлебом, Гигачада со Шреком и сыр с колбасой. Несмотря на то что у меня получаются шуточные результаты, это потрясающий инструмент. Он на фундаментальном уровне отражает суть креативности: соединять то, что никто раньше не соединял.

«Осторожно, модерн!»
«Ранетки»
«Дальнобойщики»
«Счастливы вместе»
«Каламбур», сегмент «Крутое пике»
«Поле чудес»
«Метод»
«Моя прекрасная няня»

Зачастую я использую картинки-референсы, потому что героев советской и постсоветской поп-культуры в датасете Midjourney, конечно же, нет. Западные мемы и знаменитости генерируются легко, но нарисовать по текстовому запросу Якубовича или голубя из покрышек не получится.

Ностальгия хорошо работает. Сейчас, когда мир летит в ад, людям особенно хочется вернуться к понятному и привычному. Узнаваемые образы работали всегда, но сейчас, мне кажется, есть дополнительный спрос на это.

Нейро⁠-⁠ЖЭК⁠-⁠арт
Нейро⁠-⁠ЖЭК⁠-⁠арт
Нейро⁠-⁠ЖЭК⁠-⁠арт
Нейро⁠-⁠ЖЭК⁠-⁠арт
Нейро⁠-⁠ЖЭК⁠-⁠арт
Нейро⁠-⁠ЖЭК⁠-⁠арт

Идеи можно придумывать по-разному, есть множество креативных методик, которые я использую в работе. Для генерации картинок подходит простая техника 3B: bathroom, bath и bed. Это три места, где обычно скучаешь и где нет внешних стимулов, которые бы занимали голову. Скучающий мозг в пассивном режиме начинает соединять разные концепции, образы и идеи. Так рождаются новые. Поэтому смело скучайте, это продуктивно. Но только без телефона.

На один проект уходит примерно четыре дня, но все зависит от сложности идеи. Самым трудным было «Простоквашино» в стиле ситкома. До этого я превращал сериалы с людьми в аниме, а здесь нужно было попробовать сделать наоборот: из мультфильма получить реалистичное шоу в стиле 80-х.

«Простоквашино» в стиле американского ситкома

Midjourney, в отличие от Stable Diffusion, сложно контролировать, поэтому верный способ направить нейросеть — использовать скетчи. В большом мире продакшена для кино и игр создаются концепт-арты. В Midjourney можно точно так же отдельно генерировать персонажей, одежду, сетапы, а потом использовать это как референсы.

Как генерировать по методу глубокого референса

Метод глубокого референса позволяет генерировать персонажей, которых «не знает» Midjourney. Вот как это сделать:

  1. Возьмите картинку с героем и вставьте ссылку в Midjourney. Это будет основа запроса.
  2. После ссылки напишите запрос, который описывает вашу картинку. Например, если на ней герой сидит на берегу реки, так и пишите: «A man sitting near river». Опишите его внешность, одежду, особенности и другие черты, которые важны для образа.
  3. Выберите понравившуюся картинку и увеличьте разрешение.
  4. Добавьте в новый запрос оригинальную и сгенерированную картинки, а также текст промпта. Запустите генерацию еще раз.
  5. Исправляйте детали в текстовом запросе, пока не добьетесь нужного результата.

Подробнее об использовании метода с примерами смотрите в моем ролике на «Ютубе».

Даже при использовании глубокого референса возникают проблемы. К примеру, на аниме-Парфенова ушло 50 итераций. Мне нужны были зеленые шкафы на фоне из шоу «Намедни» на НТВ, а Midjourney красила в зеленый все подряд: одежду, лицо, волосы. Это решается только методом проб и ошибок.

Аниме-Парфенов и оригинальный Парфенов
Аниме-Парфенов и оригинальный Парфенов
Неудачные генерации

Для одного проекта я генерирую 200—400 изображений, а на одну картинку уходит 20—50 итераций. Я долго выбираю: мог бы остановиться на приемлемом варианте, но всегда подкручиваю и стараюсь добиваться идеала.

В «Фотошопе» стараюсь ничего не дорисовывать, но иногда приходится. Например, когда создавал «Тайну третьей планеты» в стиле «Звездных войн», не мог даже близко сгенерировать каноничного Громозеку, потому что нейросеть не понимает концепции существа, похожего одновременно на слона и осьминога. Пришлось дорисовывать недостающие руки.

У подписчиков в тематическом челлендже тоже не получилось: Громозеки просто невозможно добиться от Midjourney.

«Тайна третьей планеты» в стиле «Звездных войн»

Что будет дальше

Мы на сверхскоростях влетаем в новую эпоху ИИ, и нас ждет много как прекрасного, так и не очень. Например, постправда. Раньше текстовые fake news были проблемой. Теперь к ним добавляются генеративные суперреалистичные фото: тот же папа римский в пуховике Balenciaga. Прибавьте сюда доступные технологии клонирования голоса, дипфейки и людей с плохими намерениями.

Пока пользователи генерируют приколы, но, мне кажется, рано или поздно произойдет очень неприятный инцидент с использованием генеративного контента, который может запустить движение за маркировку всего ИИ-контента в интернете.

Уже сейчас иногда трудно понять, что реально, а что нет. Недавно заказал рекламу своего канала на щите в Урюпинске, а некоторые подписчики подумали, что это генерация. К щиту даже пришли люди, сфоткались рядом, а им пишут: «Да это тоже генерация по запросу: „Girl standing in front of billboard, purple hair“».

Реклама моего канала на билборде в Урюпинске
Реклама моего канала на билборде в Урюпинске

В этой сфере правовое поле развивается медленно, как черепаха, гоняющаяся за зайцем, но намечается определенный тренд. Например, Stability AI столкнулась с судебными исками за использование контента для обучения без согласия. А Adobe движется в сторону «экологичности», обучая Firefly с согласия авторов и выплачивая роялти.

Мне было бы приятно, если бы я был известным иллюстратором и мои работы попали в датасет, а в промптах писали by Dobrokotov вместо Greg Rutkowski. Но здорово и правильно, когда есть выбор: использовать твои работы для обучения или нет. Впрочем, это все на корпоративном уровне. Если мы говорим про Stable Diffusion и любые открытые модели, то их можно обучить на чем угодно, даже на надписях в подъездах.

Картиночные нейросети все еще не идеальны, но почти достигли потолка. Реалистичность Midjourney поражает, а Stable Diffusion позволяет обрести полный контроль над результатом. Однако массовой аудитории все еще сложно с ними обращаться, поэтому востребованы более дружелюбные интерфейсы, а главное — интеграции в существующие и привычные экосистемы, как это делают Adobe с Firefly и Google с текстовыми моделями.

2023 год будет посвящен быстрому развитию генеративного видео и 3D-моделей, как это было с картинками в прошлом году.

Многие переживают, что нейросети заменят людей. Но это вряд ли случится.

Тут стоит ожидать другой тенденции: если не пользуешься ИИ, проиграешь конкуренту, который владеет нейросетями.

Если художник рисует маслом в подвале для души, он может ничего не изучать и быть счастливым. Но если вы работаете в коммерции иллюстратором, копирайтером или креативщиком, умение обращаться с нейросетями станет гигантским конкурентным преимуществом.

В работе мы постоянно используем нейросети: создаем сториборды, раскадровки, презентации, дизайн, тексты. Еще в прошлом году, когда все только начиналось, мы вели соцсети бренда Epica с помощью нейросетей. Теперь открыли специальный отдел и разрабатываем ИИ-проекты и продукты. Владение ИИ — это новая норма. Капитализм расставляет все точки над i: эффективные специалисты получат преимущество. Не стоит бояться, нужно учиться.

Мы вступаем новую эпоху, в которой креативность, идеи и концепции станут определяющими. Ценность внешней формы теряет свою важность, так как с помощью ИИ каждый может ее создать. Важность уникального авторского видения и эмоционального интеллекта возрастает.

Представьте себе фильм с потрясающей графикой, но без захватывающего сюжета и интересных персонажей. Насколько быстро он надоест? Поэтому развивайте креативность и концептуальное мышление. В будущем эти навыки будут наиболее ценными, наряду со способностью быстро учиться, не зацикливаясь на старых знаниях.


Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult

Александр ДоброкотовЕсть любимая картинка в интернете, которую нарисовала нейросеть? Покажите в комментариях:
  • EkaБилборд с рекламой тг канала - это что-то новенькое))7
  • КонстантинТот случай, когда любимая картинка, сгенеренная нейросетями - это Парфёнов из этого поста) Это гениально!0
  • Мария ВикторовнаEka, так еще и в Урюпинске)) Интересный охват аудитории15
  • BiggusВ очередной раз убеждаюсь что Midjorney gpt chat и прочие подобные ИИ как и тик ток сделал популярными всякого рода бездарностей, ибо они отлично маскируют это, а популярными становятся те кто просто успел или у кого была метаинфа и доступ к этим технологиям.9
  • СергейBiggus, на самом деле это лишь инструмент. Как карандаш или камера. Если у человека нет "творческой жилки" - он и с нейросетью не создаст ничего интересного. И, опять же, о чем речь... если про результат равный условному тик-току, то да - на подобное множество способны, но так и уровень тик-тока никто за что-то серьезное не воспринимает. Вы же не будете отрицать наличие хороших фотографов только из-за того, что интернет заполонен сейчас множествами самых низкопробных фото? Так и с нейросетью.1
  • Biriukov RomanКлассная идея про аниме-версии любимых героев… пришла Дмитрию Грозову aka Ahriman в 2018 году))))21
  • тьфунатебя ¯\_(ツ)_/¯Мария, киберпанк, который мы заслужили...2
  • Ekaтьфунатебя, нет, не заслужили, я себя хорошо вела))3
  • ElfinАльтернативное название статьи: "Как я украл идею у Грозова и ворую стили чужих работ, сидя на жопе ровно". Как художник, я против такого вот "творчества". И мне не хотелось бы, что-бы мои работы использовали для баз нейросетей.14
  • IwanElfin, рабочие заводов тоже бастовали против механизации, а вот - все живы, все в порядке. "Только выиграли" (с) Не волнуйтесь, талантливые люди без работы никогда не останутся.1
  • Дмитрий ПетрунинElfin, художник видит мир по другому, хотя глаза у всех нас примерно одинаковые. Передать свой взгляд на мир - способны немногие, а предвидеть его - единицы: Жюль Верн, Леонардо да Винчи, Роберт Хайнлайн...2
  • ElfinIwan, только рабочие завода не изучали пластическую анатомию, теорию цвета, законы перспективы, академ рисунок, чтобы потом это все еще и индивидуально застилизовать. А тут человек украл идею и использует нейросетки, которые крадут стили реальных людей, смешивая их в кашу. И цитаты - это не аргумент.0
  • IwanElfin, рабочие изучали свойства материалов, приемы обработки, закалки, шлифовки, фрезеровки, пайки, сварки, покраски и т.п. А проклятый станок взял и на базе знаний рабочих сделал весь процесс за один заход. Чувствуете аналогию?3
  • Олег СафинElfin, любой, кто пробовал сгенерировать хоть что-то интересное и цельное, особенно если серию работ в едином замысле, знает насколько это трудно. Это другие навыки. Фотографы тоже не обязаны знать как работает физика света и линз, а художники сейчас не перетирают вручную краски. Взять, к примеру, фотографию - если это так просто, просто щелчок камеры, то почему одни собирают десять лайков в ВК, а других знает весь мир? Потому что это гораздо больше, чем постановка света и композиции. Вы правы, мы входим в новую эпоху, и сейчас действительно не обязательно знать базу, чтобы быть художником. Но лучшие картины - не самые технически сложные, а лучшая музыка не обязательно в себя включает симфонический оркестр, где каждый участник двадцать лет играл на одном инструменте Нейроарт требует других навыков, и одно из первых мест тут занимает идея, о чем автор и написал в статье. И чем дальше, тем больший вес будет иметь идея и оригинальность. Сейчас есть некий культурный разрыв, из-за которого и идёт обесценивание действительно отличных нейроработ, которые теряются среди миллионов однотипных. Но думаю со временем комьюнити подстроится5
  • Марина АмелинаIwan, ага сначала говорят что нейросети заменят художников а потом ищут художника который дорисует за нейросетью потому что нейросеть нагенерировала говно6
  • Владислава ВеденскаяСамое главное не рассказали - как оплачивать из РФ?0
  • Айгуль ХабибуллинаМарина, никто никого не заменяет и никто об этом всерьез не говорит. Нейросети - инструмент для художника, а не его замена.1
  • Айгуль ХабибуллинаElfin, важность идеи переоценивают. Одной идеи недостаточно, надо ее еще и качественно воплотить, а это уже работа настоящего художника. Возьмите, например, музыканта, который делает офигенные каверы известных песен или режиссера, который взялся переснять на новый лад устаревший фильм. Можно ли их назвать ворами? Нет, они просто взяли старую идею и сделали с ней что-то своё. Если так кто-то делал еще - ок, в чем проблема-то? Но нет же, творить имеет право только тот, кто делает что-то ОРИГИНАЛЬНОЕ, а остальные руки прочь от искусства - так что ли?6
  • AleksandrИнфа топчик0
  • Helena WasserbergА сначала подумала, что это убойная сила0
  • TOP DriveКак выработать свой стиль.... воруя стиль у других .... и выдавая свой текстинг оу как круто да? за реальное творчество художников у которых украли их работы.3
  • Natalia KopsovКак здорово! Я тоже попробовала на предоставляемых бесплатных попытках поилюстрировать своё продолжение сказки о красавице и чудовище https://proza.ru/2015/08/08/25 и интересно получается. Но жаль, что там тогда не даётся возможность поредактировать дополнительно выбранный вариант. Вот что получилось практически сразу.1
  • Natalia Kopsov0
  • Natalia Kopsov2
  • Natalia Kopsov2
  • Natalia Kopsov0
  • Natalia Kopsov0
  • Natalia KopsovА с продолжением "Кота и сапогах" и "Трех поросят" (https://proza.ru/2015/08/08/19) получилось так:0
  • Natalia Kopsov0
  • Natalia Kopsov0
  • Natalia KopsovА на запрос многоквартирных домов с балконами или терассами дочери фараона я получила следующее:2
  • Natalia Kopsov2
  • Natalia Kopsov0
  • Natalia Kopsov1
  • Natalia Kopsov2
  • Natalia Kopsov0
  • Евгений ДюруаОчередной креативный бездельник. Если ты такой себе художник и АI отнимает у тебя хлеб - просто назовись АI художник и продолжай стричь недалеких заказчиков ))0