Kandinsky 2.2 — нейросеть от Сбера, которая генерирует картинки по текстовым запросам.

Главная особенность сервиса в том, что он работает с русским языком и генерирует приближенные к фотореализму картинки. Можно описать изображение, задать стилистику, уточнить детали. В отличие от большинства аналогичных сервисов, Kandinsky 2.2 довольно хорошо понимает русскоязычные запросы и учитывает их при генерации.

Рассказываем, почему стоит обратить внимание на нейросеть, как она справляется с задачами и как показывает себя на фоне главного конкурента.

Что собой представляет Kandinsky 2.2

Сервис Kandinsky 2.1 появился весной 2023 года. Тогда Сбер сильно улучшил свою модель и повысил уровень генераций. У нее неплохо получались арты, но иностранные проекты Midjourney и Stable Diffusion к тому моменту уже перешли от красивых рисунков к фотореализму. Как раз в ответ на это летом появилась версия Kandinsky 2.2, главной фишкой которой называют фотореализм. Подробнее об этом можно почитать в блоге компании на «Хабре».

Принцип работы нейросети не отличается от конкурентов — она рисует изображения в разных стилях на основе текстового запроса. Но разработчики «Кандинского» заявляют о поддержке более 100 языков, в том числе и русского, чем не могут похвастаться англоязычные Midjourney или Dall-e 2. Это сильно выделяет сервис на фоне других, для работы с которыми россиянам требовалось знание английского языка или использование переводчика.

У нейросети от Сбера есть пять основных режимов работы:

  1. Генерация по тексту. Стандартная функция: необходимо написать текстовый запрос, а нейросеть нарисует по нему изображение.
  2. Смешивание изображений. Можно добавить две картинки и посмотреть на микс от нейросети.
  3. Вариации изображения. Если добавить уже готовую картинку или фото, а затем задать определенную стилистику, можно получить новое изображение.
  4. Дорисовка. Обычно этот режим называют outpainting. Можно взять фото или картинку, а затем попросить нейросеть дополнить ее — дорисовать оставшиеся за кадром детали.
  5. Перенос стиля. Это аналог плагина ControlNet от Stable Diffusion. Функция позволяет переносить позу персонажа или очертания исходного изображения на новую сгенерированную картинку.

Где попробовать нейросеть Kandinsky 2.2

Есть несколько способов:

  1. На сайте fusionbrain.ai — это тестовый сайт команды «Кандинского». Там можно генерировать на основе текста и использовать режим дорисовки.
  2. В официальном телеграм-боте — там доступны все четыре режима генерации.
  3. На сайте Rudalle — так называлась самая первая версия нейросети Сбера для генерации картинок.
  4. С помощью навыка «Включи художника» в голосовом помощнике «Салют» от Сбера.
  5. На сайте Сбера.
  6. В боте во «Вконтакте».

Телеграм-бот — один из самых удобных способов. Он бесплатный, быстро генерирует и поддерживает основные режимы. В «Телеграме» есть боты других нейросетей, но им нельзя доверять — часто их запускают мошенники. Тут же все официально.

Во всех шести случаях нейросеть может не сработать. Регулярно появляются ошибки и на сайтах, и в телеграм-боте. Сбер объясняет это большой нагрузкой на сервис.

Как генерировать картинки в Kandinsky 2.2

Я пользовался двумя способами: телеграм-ботом и платформой fusionbrain.ai. Второе — полноценный сайт для генерации картинок. Есть область, вместо которой появится изображение, текстовое поле для запроса, а также выбор основных стилей.

Фиолетовый квадрат как раз и есть область генерации. Ее размеры можно изменять. Это не особенно полезно при стандартной генерации по тексту, но срабатывает при других режимах.

Поле для генерации. Картинка генерируется в желтой рамке, но потом ее можно отодвигать в сторону, чтобы генерировать новые части

Сейчас стилей больше 20. Есть как привычные вроде киберпанка или аниме, так и новые для нейросетевых сервисов — советские мультфильмы, хохлома. В англоязычных приложениях традиционно проблемно сгенерировать что-то подобное, модели не обучены на таких картинках.

Вот полный список стилей:

  1. Аниме.
  2. Детальное фото.
  3. Киберпанк.
  4. Кандинский.
  5. Айвазовский.
  6. Малевич.
  7. Пикассо.
  8. Гончарова.
  9. Классицизм.
  10. Ренессанс.
  11. Картина маслом.
  12. Рисунок карандашом.
  13. Цифровая живопись.
  14. Средневековый стиль.
  15. Советский мультфильм.
  16. 3D-рендер.
  17. Мультфильм.
  18. Студийное фото.
  19. Портретное фото.
  20. Хохлома.
  21. Новый год.

По большей части стили работают хорошо. А вот «фирменные» не всегда: хохлома сгенерировалась, а советский мультфильм не очень похож. В текстовом запросе можно добавлять стилистику самостоятельно, если ее нет в списке. Для этого достаточно оставить галочку у пункта «Без стиля».

Картинки генерируются в пяти разрешениях 1:1 (1024 × 1024 точек), 2:3 (680 × 1024), 3:2 (1024 × 680), 9:16 (576 × 1024), 16:9 (1024 × 576).

Редактирование уже сгенерированного изображения — интересная функция. На готовой картинке можно воспользоваться инструментом «ластик» и закрасить им часть, которую нужно поменять. А затем снова нажать кнопку «Создать».

Так я несколько раз менял человека в красном пальто на улице киберпанковой Москвы. Нейросеть очень четко работала по контуру и не искажала остальное изображение. Это действительно полезный инструмент, которого не хватает многим сервисам.

Дорисовка тоже инструмент, который есть далеко не во всех сервисах. Работает это так: вы генерируете или загружаете картинку, а затем уменьшаете ее так, чтобы поле генерации было больше изображения. Потом дописываете текстовый запрос или выбираете стиль, после чего нейросеть будто дорисовывает картинку.

Я попробовал режим на примере Шрека — изобразил его в киберпанк-стиле. Сервис довольно неплохо дорисовал тело зеленого огра, сохранив его особенности и детали одежды. А вот лес на фоне оригинального кадра стал проблемой, в итоге он сильно выделяется на фоне типичного киберпанк-города. Хотя нейросеть попыталась обыграть деревья, превратив их в странную зеленую сферу.

Вот такой получится киберпанк⁠-⁠Шрек

Перенос стиля позволяет задавать дополнительные входные условия — позу персонажа и очертания исходной картинки. Можно взять фото человека, прогнать его через нейросеть и заменить только его внешность с сохранением остальной композиции. Возможность доступна только в телеграм-боте.

Я попробовал смешать Шрека с Райаном Гослингом из «Бегущего по лезвию». Получилось неплохо: Kandinsky 2.2 скопировал стилистику и выражение лица Гослинга, но сохранил узнаваемые черты Шрека. Есть и недостаток: никак нельзя повлиять на результат генерации — к примеру, установить процент заимствования. Вы просто загружаете две картинки и ждете результата.

Смешивание картинок работает похожим образом, но только нейросеть не принимает во внимание позу персонажа и положение объектов. Она просто смешивает элементы двух картинок случайным образом, поэтому могут получаться непредсказуемые результаты.

Из смешивания Шрека с Райаном Гослингом получился герой боевиков 90-х, не похожий ни на огра, ни на голливудского актера. Нейросеть заимствовала стилистику у обеих картинок: лес от Шрека и освещение от «Бегущего по лезвию».

Гослингошрек

Стикеры для «Телеграма» можно создать прямо в боте. Kandinsky 2.2 сгенерирует по запросу упрощенный стилизованный рисунок с белой обводкой. Можно сразу создать новый стикерпак, а можно добавить сгенерированную картинку в уже существующий.

Сложные запросы Kandinsky 2.2 не воспринимает: у него не получилось сделать капибару со стаканчиком кофе или капибару за компьютером. А вот капибара в одеяле получилась более-менее, хотя часть тела пропала.

Стикерпак с капибарами

Как Kandinsky 2.2 генерирует фотореализм

При использовании Kandinsky 2.2 я неоднократно думал, что стилистически результаты напоминают мне популярную нейросеть Midjourney. Причем пятое поколение, которое сделало ставку на фотореализм — v5. Поэтому я решил напрямую сравнить сервисы. В случае с «Кандинским» запросы я составлял на русском языке, а затем переводил их на английский и использовал в Midjourney.

Вывод: Midjourney, конечно, генерирует картинки более высокого качества и лучше работает с деталями. У Kandinsky 2.2 цвета более яркие и насыщенные: как будто контрастность выкрутили на максимум. В остальном стилистически он рисует похожие изображения.

В чем плюс — нейросеть полностью бесплатная, в отличие от Midjourney. Раньше у иностранного сервиса хотя бы была пробная версия. Но уже несколько месяцев эта возможность закрыта для новых пользователей. Оплатить же Midjourney из России проблематично.

Вот несколько примеров от двух нейросетей. Слева — Kandinsky, справа — Midjourney v5.

Что в итоге

  1. Kandinsky 2.2 — бесплатная нейросеть, которая генерирует картинки по текстовым запросам.
  2. В отличие от большинства популярных нейросетей, Kandinsky хорошо понимает запросы на русском языке.
  3. В Kandinsky есть много режимов генерации, которыми легко воспользоваться: смешивание картинок, перенос стиля, дорисовка.
  4. Телеграм-бот генерирует картинки и позволяет сделать из них стикерпак.
  5. В новой версии сделали упор на фотореализм, но по качеству нейросеть все еще уступает Midjourney.
Генерировали картинки в нейросетях? Поделитесь своими результатами и расскажите, какой запрос использовали
Евгений Кузьмин
Евгений Кузьмин
Уже попробовали нейросеть? Делитесь своими работами:
Комментарии проходят модерацию по правилам журнала
Загрузка
0
Иван Драго

"Красивая девушка в синем платье", конечно атас.
В обоих вариантах...

16
Оранжевый Лис

Иван, да там и мужчина у сбера не айс)))

0
Елена Крюкова

Оранжевый, ну, я бы так не сказала

Изображение пользователя Елена Крюкова
6
0
Пухоспинка Царственная

с разъяренного хомяка-грузовика в голосину просто

7
Victor Mon

Артем, своё?

5
0
Алекс Иванов

Битва фрегатов 19 века, абордаж, выстрелы киберпанк

Изображение пользователя Алекс Иванов
4
0
Хьёрфи

По стилю действительно очень похоже на миджорни, что радует, поскольку мне она нравилась, но сейчас бесплатное тестирование закрыли. Качество чуть хуже, но не критично.

Изображение пользователя Хьёрфи
4
Хьёрфи

Хьёрфи, Тот же персонаж в миджорни, сходство стиля очевидно

Изображение пользователя Хьёрфи
1
0
Иришка Маликова

Подскажите пожалуйста, можно ли сгенерированные изображения или их фрагменты использовать в коммерческих целях?

3
Системный инженер

Иришка, наверняка. Кто ж на них права предъявит)

1
0
G mystepheny
01.05, 09:12
Отредактировано

отважный кот в космосе :D

Изображение пользователя G mystepheny
3
0
G mystepheny

кактус улыбается

Изображение пользователя G mystepheny
3
0
кошка смотрю в окошко

"Красивая, грустная девушка сидит в Москве на скамейке, в руке у нее зонт, на улице идёт проливной дождь, на коленках у нее сидит кот, которого она гладит сквозь слезы"

Зонт левитирует, слезы тоже где-то потерялись, да и кота мы почему-то не гладим, не порядок! :)

Изображение пользователя кошка смотрю в окошко
3
RENNE

кошка, там на фоне ещё человек трехногий что ли

9
0
Sooka

Это DALL-E 🙄

2
0
G mystepheny

"нейросеть, ты бездарь"

Изображение пользователя G mystepheny
2
0
Георгий Никонов
07.04, 13:36
Отредактировано

интроверт перфикционист недолюбливает диалектический материализм.

Изображение пользователя Георгий Никонов
1
0
Владимир Пустовалов

Пробовал..есть косяки..я так и не понял как нарисовать девушку во весь рост..некоторые промты вообще игнорит..проблемы с отзеркалкой..например очки..одна линза больше другой и какой то другой формы..варианты у нейросети неварианты..мусолит одно и то же изменяя чуть чуть..фото свое закинул он ее не улучшил..а наоборот ухудшил...

1
0
Николай Ермаков

Пробовал кандинского и шедеврум. Кандинский на голову выше в реалистичных фотогрфиях
Но у шедеврума быаают получше абстракции. И та и другая сети не знают, как выглядят простые бытовые вещи. Кандинский по запросу "землянка" нарисовал червяка.

1
0
Algis Belskov

Кандинскому до Midjourney пока, как до Пекина раком. Проблемы с руками и другими конечностями, с оружием, с материалами, из которых сделаны предметы, реально существующими зданиями (прямо в этой статье разница изображения Красных площадей налицо) и т.д. - в Midjourney всё это уже решено. И да, более корректно "русский" Кандинский работает с запросами на английском, а в некоторых случаях, вообще может визуализировтаь задуманное только если оно описано с учетом особенностей английского языка, - с чего бы это?

1
0
Александр Максимович

Евгений, мне лично Kandinsky 2.1Kandinsky 2.1 очень понравился.

Изображение пользователя Александр Максимович
1
0
Ксения Демченко

Как по мне, так я под впечатлением)

Изображение пользователя Ксения Демченко
1
0
Феликс Геворкян

А где можно попробовать или скачать?

0
Владимир Пустовалов

Феликс, в телеграмм пишешь Kandinsky в поиске

0
0
Николай Ермаков

Продолжу. Обе сети не знают как выглядит примус. Лодка-долбленка для них оказалась нерешаемой задачей. У Кандинского огромное преимущество над шедеврумом в том, что можно изображать реальных людей, хотя качество изображения иногда оставляет желать лучшего. В данном случае внизу изображение по запросу Певица Анна Седокова. На прототип совсем не похоже.

Изображение пользователя Николай Ермаков
0
0
Наташа Шерстянова

В этом месяце скачала Шедеврум, много раз запросила про ткачество, вязание и ткачиху. Пока не то. И сейчас пробую в этой нейросети, тоже не шедевры.

0
0
Сергей Аверин

Попробовал кандински впервые очень просто работать в этом сервисе очень понравилось в отличие от миджорни где я до сих пор не могу разобраться

0
0
Вальдемар Безбашенный

Не могу изменить вставленное фото на "рисунок карандашом". В описании не нашел как это сделать

0
0
Антон

Здравствуйте!А Вы не знаете,есть ли возможность оплатить подписку и использовать сгенерированные картинки в коммерческих целях,как например в Midjourney?

0
0
Александр Максимович

Мне очень понравился Kandinsky 2.1

Изображение пользователя Александр Максимович
0
0
Полина Караванова

А куда отправлять уточнения и просьбы? Например, мне очень интересно генерировать изображения по фразам, но у всех "коней в сферическом вакууме", "сивых меринов", ит.п.- изображений коня/лошади по пять ног и неестественно длинный круп.
А сама идея замечательная, надеюсь, её будут совершенствовать, а то из-за авторских прав и "затёртости" популярных фото найти иллюстрацию, порой, очень сложно.

0
Stepan Ksenofontov

Andre, разберутся

0
0
Сергей П.

Молодцы!

0
0
Сергей П.

Молодцы! Отличная сеть!

0
0
Sheldon
Изображение пользователя Sheldon
0
0
Диана

Нейросеть (НС) генерирует образы на основе нескольких шаблонов. Поэтому ей все равно: "большой нос с горбинкой" или "маленький прямой нос", НС рисует одинаковые носы - пяточки. Неинтересно. НС еще дорабатывать и дорабатывать надо.

0
0
Elena Kuleshova

Рассказываю:
1. Нейросеть эта, как Поздняков, борется с феминитивами. И потому, если вы не напишете специально и настойчиво "женщина", то вам нарисуют по умолчанию мужчину. "Волшебник" и "волшебница" - одинаково Гэндальф.
2. Космонавт - это всегда американский, с флагом США на рукаве, даже если "российский".
3. Сетку обучали на англоязычном корпусе. Хотите лучше результат? Пишите по-английски. К слову, именно оттуда растут ноги у п.1.
4. "Фаину Раневскую в роли проститутки" Кандинский не нарисует. И "спектакль в Московском камерном театре про революцию" - тоже. Потому что разврат, насилие и наркоманы мы тут все.
5. Пальцы - отдельная тема. Очень страшная тема. Таких мутантских культяпок я никогда не видела.
6. Поскольку фильтры простые, то вам не удастся нарисовать "платье кровавого цвета", ибо убийство и насилие же, откуда иначе кровь?
7. Если вы попробуете нарисовать Собчак в виде рыбы, скажем, - у вас ничего не получится. Ксюша всегда будет самой собой, потому что на ней стоит защита.
8. ВСЕ персонажи, отрисованные Кандинским - худые. Даже если вы пишете "полный". Можно нарисовать очень полного человека, но промежуточных вариантов нет. Собственно, и со средним возрастом тоже проблема: или молодой человек, или уж сразу 50+.
9. Центровка по умолчанию на крупный кадр, а если вдруг средний, то у него режутся верх и низ.

0
0
Сергей Никулин

Промт: Красивая, юная, молодая девушка-подросток, неформалка, топлесс, панк, будущее, космическая станция, город, ошейник, полдень, по пояс
Стиль: 4к(в телеграм-боте)

Изображение пользователя Сергей Никулин
0
0
Михаил Шадрин
23.09, 20:23
Отредактировано

слишком зацензурированный ии, 9из10, ставлю класс

0

Сообщество