Это история из Сообщества. Редакция задала вопросы, бережно отредактировала и оформила по стандартам журнала
В марте 2023 года я рассказывал, что профессионально генерирую картинки и считаю это искусством.
За полгода кое-что изменилось. С лета я официально перешел на должность нейродизайнера в Т—Ж.
В течение июля и августа я сгенерировал более 50 обложек, хотя когда-то начинал с одной картинки в месяц. Расскажу, как я работаю, объясню, почему мне приходится использовать сразу пять нейросетей, и покажу свои лучшие генерации. А заодно поразмышляю о том, сможет ли искусственный интеллект заменить людей.
Мой подход
У каждой рубрики Т—Ж свой стиль. Обычно мы выбираем его вместе с командой дизайнеров — каждый раз это уникальный процесс. Мне могут предоставить референс, чтобы я сделал нечто похожее, или дать полную творческую свободу.
Для материалов о сомнительных концепциях из психологии взяли генерации моей модели по картинам московских концептуалистов. Она дает масляный эффект, но при этом экспериментирует с пространством холста.
Я не всегда использую старые модели или дообучаю их дополнительными референсами. Для изображений к рубрике «Нейросказки» я просто нашел хороший промпт, после чего использовал его с небольшими доработками.
С этой задачей Stable Diffusion и Midjourney справились по-разному: у них различается стиль, поэтому мы брали картинки из обеих нейросетей.
Где-то приходилось готовить референс и использовать ControlNet — расширение, которое помогает генерировать по контуру или карте глубины. Так мы выработали стиль для рубрики «Бюджеты родителей»: обложками становятся нейрорисунки на основе фотографий читателей.
Если в материале нет удобного кадра, я выдумываю его в Midjourney и использую как референс.
Сложности
Обложки на мобильных устройствах. У материалов Т—Ж стоят широкоформатные обложки, которые чаще всего обрезаются на мобильных устройствах в соотношении 2:3. Из-за этого нужно генерировать картинки с объектами по центру. Здесь возникает проблема: нейросети плохо создают очень широкие изображения — на них чаще появляются артефакты.
Чаще всего я генерирую картинки в разрешении 1344 × 768 и растягиваю их с помощью тех же самых нейросетей. Такой подход помогает оставить весь сюжет изображения в центре и сделать так, чтобы он не пострадал из-за обрезки на смартфонах.
Ручные корректировки. У нейросетей есть и другие слабости — не только артефакты, но и технические ограничения или слабый контроль за процессом. Если я хочу определенную композицию, мне придется исправить картинку руками. Это может растянуть выполнение задачи на несколько часов.
Для одной из обложек ежемесячной рубрики «Новости для бизнеса» я сгенерировал десятки мужчин в офисе с борщевиками. Даже итоговый вариант пришлось дорабатывать: я иначе выстроил кадр, убрал лишние элементы на фоне и долго правил руку, чтобы она в итоге касалась соцветия. Следы нейросети все равно заметны, но хотя бы ошибки не бросаются в глаза.
Бывает, трачу дополнительное время ради маленькой детали. Когда я генерировал картинку к материалу о скуфах, не удержался и добавил на экран скриншот главной Т—Ж. Это заняло полчаса — ни о чем не жалею.
Если потратить много времени, можно исправить даже неудачную генерацию. В этом помогает функция генеративной заливки в Photoshop, а еще техники коллажирования. Можно сшить разные картинки вместе, передвинуть объекты в кадре, а что-то сгенерировать по-новому.
Фактически я использую в работе целый комплекс нейросетей: Stable Diffusion, Midjourney, Generative Fill в Photoshop, разные модели Esrgan для увеличения картинок, MiDaS в ControlNet для карты глубины.
Вместе с ними можно сгенерировать убедительные обложки в сотнях разных стилей. Да, в процессе нужно дорабатывать картинки, но это все равно быстрее и эффективнее, чем делать все самому традиционными методами.
Дообучение моделей. В самых трудных случаях можно дообучить новую модель или подготовить референсы для генераций. Так мы поступили для нашего курса о нейросетях. Сначала с командой подготовили датасет, потом я несколько раз дообучил модель, а затем для каждой обложки подготовил коллажи в виде «объект плюс фон» — так удалось получить единый стиль генераций.
Будущее нейросетей
Я уверен, что на наших глазах вовсю идет технологическая революция. Нейросети продолжат развиваться и станут еще лучше. Даже за последний год многое изменилось. Вышли новые модели Stable Diffusion и Midjourney, которые генерируют изображения лучше и разнообразнее, чем когда-либо.
Идеи становятся важнее рутинного процесса. Порой придумываешь скучные обложки в духе «Бизнесмен в золотом костюме», а иногда удается найти ироничный образ наподобие борщевика в руках. Нейросети дают возможность создавать все — и обычные картинки в стоковом стиле, и даже настоящее искусство.
Уверен, когда человечество научится пользоваться новой технологией и создаст удобные продукты на ее основе, визуальная культура и рынок труда изменятся. Развитие повлияет на коммерческих художников и дизайнеров, фотостоки и агентства, компании и блогеров. Для этого понадобится от 10 до 20 лет. То же самое произошло со смартфонами и интернетом.
Можно представить, как таргетированная реклама подстраивается под интересы пользователя и генерируется в момент показа, маленькие издания экономят на иллюстраторах и нанимают всего одного нейродизайнера, а картинки в соцсетях автоматически расширяются под разные соотношения сторон.
При этом я считаю, что искусственный интеллект не заменит людей полностью. Конечно, кто-то останется без работы, но в целом просто появится другой вид конкуренции. Пускай не все прямо сейчас чувствуют революцию, но она однозначно уже началась.