Выбор нейросети и составление запроса
Я использовал нейросеть Stable Diffusion, потому что у нее открытый код и больше возможностей. Дообучил официальную модель 2.1 — это заняло у меня полтора часа методом Dreambooth. В основе дата-сета — мои собственные кадры, но еще я добавил снимки галерейных фотографов. Например, Елены Чернышовой, Георгия Пинхасова и Александра Гронского.
После этого я генерировал простыми запросами: Santa Claus behind tall building, snowy weather, film photo, contrast shadows. Сделал больше тысячи вариантов, потому что преследовал конкретные образы, композицию и цвета. Это давало то же ощущение, что и при съемке в городе: ждешь, смотришь на детали, ищешь тот самый момент — только все это перед ноутбуком.
В Stable Diffusion есть Inpainting: выделяешь зону и генерируешь заново только ее. Этим я тоже пользовался, чтобы подправить детали или поменять цвета. Так я выровнял композицию в кадре с елочкой в окне и создал драматический взгляд у Деда Мороза с крестиком.
Последний шаг — постобработка: увеличил картинки нейросетью Topaz Gigapixel, подкорректировал цвета, замазал артефакты и поднял точку черного для эффекта пленки. Еще я наложил текстуру с шумом. Все вместе сделало генерации менее искусственными.
Впечатления
Это была первая модель, которую я обучал всерьез. До этого я тренировал нейросеть только на фотографиях Кокоса — кота моего друга. Тогда я потратил 3-4 попытки и не сразу понял, какие настройки подходят лучше всего и как отбирать картинки.
Своей моделью я доволен. В моем дата-сете не было новогодних елок, фейрверков или огромных пугающих сугробов, но она смогла вписать даже новые элементы в общую эстетику. Это такой бесконечный генератор России.
Хуже всего она генерировала людей в сложных позах, но это недостаток всех диффузионных нейросетей. Дети на коньках вышли патологическими — я подправил им анатомию. Еще она упускала следы на снегу от людей и уток, поэтому их пришлось дорисовать самому.
Трудности с использованием нейросети
Я с релиза использую Stable Diffusion, поэтому со всеми трудностями разбирался еще летом. Мне помог самый эффективный метод обучения — метод проб и ошибок. Тренировать собственную модель оказалось не так трудно, но вместе с подготовкой дата-сета это занимает больше 4 часов.
Stable Diffusion — в отличие от Midjorney — хуже в простых задачах. Эта нейросеть не сгенерирует красивую иллюстрацию для блога с первого запроса и в среднем хуже понимает запрос. Ее фича — открытый код, комьюнити и кастомизация.
1. Почему везде один снег?
2. Почему у мужика шапка Санта Клауса?
3. Где медведи на улицах? :)
ezdiumno, в усредненной России медведи живут в панельках, а дед мороз гопстопнул Санту и отнял его лук
Mike, Россия усреднена как-то по стандартам восприятия дикого западного европейца в смеси с необразованным американцем. :))
А это Баленсиага снимала))
Это же чувак из рекламы Теле2
В усредненной России получается только Санта Клаус на улицу выходит.
Не те книжки ваша нейросеть читала ))
Жутковато слегка... Типа эффекта "зловещей долины"
Заясь,, тоже так подумала, что чот криповато
Бесконечная зима... Бррр
Можно ли чуть больше подробностей: на каком оборудовании обучали, какой примерный размер датасета?
Генерировать Россию с запросом Санта Клаус!!!... Разве могут такие учителя чему-то научить здравому нейросеть?! На картинках даже близко России нет. Это Норвегия или Исландия.
Не носили русские деды морозы красных шапок и шуб...
Молодец но хуйня)))
Дед (мороз?) в шапке Санта Клауса и православная церковь с католическим крестом не очень похожи на среднестатистическую Россию. Да и снег, по правде сказать, не каждую зиму бывает, по крайней мере в Европейской части. Скорее каша на дороге.
если не секрет, есть планы по применению полученного опыта?
вот эта прикольная
Олег, а мне с елкой в окне понравилась.
Почему-то "Сталкер" Тарковского вспомнился.
Нейросеть видит нас так, как нас представляют программисты на западе) и вообще кажется, что картинки нейросети подготавливают нас к какой-то мрачности. Даже яркие краски выглядят с оттенком серости.