Сбер запустил Kandinsky 2.1 — обновленную нейросеть, которая генерирует картинки по текстовым запросам.
Главная особенность сервиса в том, что он работает с русским языком. Можно описать изображение, задать стилистику, уточнить детали. В отличие от большинства аналогичных сервисов, Kandinsky 2.1 довольно хорошо понимает русскоязычные запросы и учитывает их при генерации.
Рассказываем, почему стоит обратить внимание на нейросеть, как она справляется с задачами и как показывает себя на фоне главного конкурента.
Что собой представляет Kandinsky 2.1
Kandinsky 2.1 — новое поколение одноименной нейросети для генерации картинок, которую Сбер запустил летом 2022 года. Модель сильно улучшили и обучили на 170 миллионах связок «текст-изображение». Kandinsky 2.1 содержит 3,3 миллиарда параметров, предыдущая Kandinsky 2.0 — только 2 миллиарда. Подробнее о техническом аспекте можно прочитать в блоге компании на «Хабре».
Принцип работы нейросети не отличается от конкурентов — она рисует изображения в разных стилях на основе текстового запроса. Но разработчики «Кандинского» заявляют о поддержке более 100 языков, в том числе и русского, чем не могут похвастаться англоязычные Midjourney или Dall-e 2. Это сильно выделяет сервис на фоне других, для работы с которыми россиянам требовалось знание английского языка или использование переводчика.
У нейросети от Сбера есть четыре основных режима работы:
- Генерация по тексту. Стандартная функция: необходимо написать текстовый запрос, а нейросеть нарисует по нему изображение.
- Смешивание изображений. Можно добавить две картинки и посмотреть на микс от нейросети.
- Вариации изображения. Если добавить уже готовую картинку или фото, а затем задать определенную стилистику, можно получить новое изображение.
- Дорисовка. Обычно этот режим называют outpainting. Можно взять фото или картинку, а затем попросить нейросеть дополнить ее — дорисовать оставшиеся за кадром детали.
Где попробовать нейросеть Kandinsky 2.1
Есть несколько способов:
- На сайте fusionbrain.ai — это тестовый сайт команды «Кандинского». Там можно генерировать на основе текста и использовать режим дорисовки.
- В официальном телеграм-боте — там доступны все четыре режима генерации.
- На сайте Rudalle — так называлась самая первая версия нейросети Сбера для генерации картинок.
- С помощью навыка «Включи художника» в голосовом помощнике «Салют» от Сбера.
Во всех четырех случаях нейросеть может не сработать. Регулярно появляются ошибки и на сайтах, и в телеграм-боте. Сбер объясняет это большой нагрузкой на сервис.
Как генерировать картинки в Kandinsky 2.1
Я пользовался двумя способами: телеграм-ботом и платформой fusionbrain.ai. Второе — полноценный сайт для генерации картинок. Есть область, вместо которой появится изображение, текстовое поле для запроса, а также выбор основных стилей.
Фиолетовый квадрат как раз и есть область генерации. Ее размеры можно изменять. Это не особенно полезно при стандартной генерации по тексту, но срабатывает при других режимах.
Сейчас стилей больше 20. Есть как привычные вроде киберпанка или аниме, так и новые для нейросетевых сервисов — советские мультфильмы, хохлома. В англоязычных приложениях традиционно проблемно сгенерировать что-то подобное, модели не обучены на таких картинках.
Вот полный список стилей:
- Аниме.
- Детальное фото.
- Киберпанк.
- Кандинский.
- Айвазовский.
- Малевич.
- Пикассо.
- Гончарова.
- Классицизм.
- Ренессанс.
- Картина маслом.
- Рисунок карандашом.
- Цифровая живопись.
- Средневековый стиль.
- Советский мультфильм.
- 3D-рендер.
- Мультфильм.
- Студийное фото.
- Портретное фото.
- Мозаика.
- Иконопись.
- Хохлома.
- Новый год.
По большей части стили работают хорошо. Но как раз «фирменные» оказались не очень похожи — создать советский мультфильм или хохлому не удалось. Впрочем, в текстовом запросе можно добавлять стилистику самостоятельно, если ее нет в списке. Для этого достаточно оставить галочку у пункта «Без стиля».
Все картинки генерируются в разрешении 768 × 768 точек. Большее разрешение выставить нельзя, хотя современные нейросети уже рисуют картинке качественнее.
Интересная функция — редактирование уже сгенерированного изображения. На готовой картинке можно воспользоваться инструментом «ластик» и закрасить им часть, которую нужно поменять. А затем снова нажать кнопку «Создать».
Так я несколько раз менял человека в красном пальто на улице киберпанковой Москвы. Нейросеть очень четко работала по контуру и не искажала остальное изображение. Это действительно полезный инструмент, которого не хватает многим сервисам.
Дорисовка тоже инструмент, который есть далеко не во всех сервисах. Работает это так: вы генерируете или загружаете картинку, а затем уменьшаете ее так, чтобы поле генерации было больше изображения. Потом дописываете текстовый запрос или выбираете стиль, после чего нейросеть будто дорисовывает картинку.
Я попробовал режим на примере Шрека — изобразил его в киберпанк-стиле. Сервис довольно неплохо дорисовал тело зеленого огра, сохранив его особенности и детали одежды. А вот лес на фоне оригинального кадра стал проблемой, в итоге он сильно выделяется на фоне типичного киберпанк-города.
Сравниваем Kandinsky 2.1 с Midjourney
При использовании Kandinsky 2.1 я неоднократно думал, что стилистически результаты напоминают мне популярную нейросеть Midjourney. Не пятое поколение, которое сделало ставку на реализм, а версии v3 и v4. Поэтому я решил напрямую сравнить сервисы. В случае с «Кандинским» запросы я составлял на русском языке, а затем переводил их на английский и использовал в Midjourney.
Вывод: Midjourney, конечно, генерирует картинки более высокого качества и лучше работает с деталями. Но Kandinsky 2.1 отстает не слишком сильно, особенно если не всматриваться в картинки. Стилистически он рисует похожие изображения. В чем плюс — нейросеть полностью бесплатная, в отличие от Midjourney.
Вот несколько примеров от двух нейросетей.
Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult
"Красивая девушка в синем платье", конечно атас.
В обоих вариантах...
Иван, да там и мужчина у сбера не айс)))
Оранжевый, ну, я бы так не сказала
с разъяренного хомяка-грузовика в голосину просто
По стилю действительно очень похоже на миджорни, что радует, поскольку мне она нравилась, но сейчас бесплатное тестирование закрыли. Качество чуть хуже, но не критично.
Хьёрфи, Тот же персонаж в миджорни, сходство стиля очевидно
Это DALL-E 🙄
Битва фрегатов 19 века, абордаж, выстрелы киберпанк
интроверт перфикционист недолюбливает диалектический материализм.
Подскажите пожалуйста, можно ли сгенерированные изображения или их фрагменты использовать в коммерческих целях?
Молодцы ребята! Наконец-то что-то свое появляется
Артем, своё?
А где можно попробовать или скачать?
Феликс, в телеграмм пишешь Kandinsky в поиске
Пробовал..есть косяки..я так и не понял как нарисовать девушку во весь рост..некоторые промты вообще игнорит..проблемы с отзеркалкой..например очки..одна линза больше другой и какой то другой формы..варианты у нейросети неварианты..мусолит одно и то же изменяя чуть чуть..фото свое закинул он ее не улучшил..а наоборот ухудшил...
Пробовал кандинского и шедеврум. Кандинский на голову выше в реалистичных фотогрфиях
Но у шедеврума быаают получше абстракции. И та и другая сети не знают, как выглядят простые бытовые вещи. Кандинский по запросу "землянка" нарисовал червяка.
Продолжу. Обе сети не знают как выглядит примус. Лодка-долбленка для них оказалась нерешаемой задачей. У Кандинского огромное преимущество над шедеврумом в том, что можно изображать реальных людей, хотя качество изображения иногда оставляет желать лучшего. В данном случае внизу изображение по запросу Певица Анна Седокова. На прототип совсем не похоже.
В этом месяце скачала Шедеврум, много раз запросила про ткачество, вязание и ткачиху. Пока не то. И сейчас пробую в этой нейросети, тоже не шедевры.
Попробовал кандински впервые очень просто работать в этом сервисе очень понравилось в отличие от миджорни где я до сих пор не могу разобраться
отважный кот в космосе :D
кактус улыбается
"нейросеть, ты бездарь"
Не могу изменить вставленное фото на "рисунок карандашом". В описании не нашел как это сделать
Здравствуйте!А Вы не знаете,есть ли возможность оплатить подписку и использовать сгенерированные картинки в коммерческих целях,как например в Midjourney?
Кандинскому до Midjourney пока, как до Пекина раком. Проблемы с руками и другими конечностями, с оружием, с материалами, из которых сделаны предметы, реально существующими зданиями (прямо в этой статье разница изображения Красных площадей налицо) и т.д. - в Midjourney всё это уже решено. И да, более корректно "русский" Кандинский работает с запросами на английском, а в некоторых случаях, вообще может визуализировтаь задуманное только если оно описано с учетом особенностей английского языка, - с чего бы это?