Вышла Midjourney v5: нейросеть теперь создает фотореалистичные картинки
Разработчики Midjourney выпустили пятую версию нейросети, которая генерирует намного более реалистичные изображения.
В модели v5 используется иная нейронная архитектура, а также новые технологии генерации стилей и эстетики. Работа над новой версией Midjourney велась пять месяцев. Об этом разработчики рассказали на официальном дискорд-сервере проекта.
Пятое поколение пока в стадии альфа-тестирования. Разработчики предупреждают, что к полноценному релизу нейросеть может сильно измениться. Но для пользователей уже открыли генерацию. Мы протестировали модель и рассказываем, что в ней нового.
Что такое Midjourney и почему нейросеть настолько популярна
Она генерирует картинки по текстовому описанию, и их вполне можно спутать с «человеческими» артами. Midjourney гораздо доступнее своих конкурентов: к Dall-E нет публичного доступа, а для запуска Stable Diffusion нужен хороший компьютер.
Midjourney так популярна, потому что может генерировать красивые картинки по простому запросу. Чтобы получить похожие результаты в Stable Diffusion, нужно пробовать разные модели и долго подбирать промпты.
В Midjourney огромное количество настроек. С их помощью можно менять детализированность картинки, соотношение сторон и другие параметры. Подробнее о том, как пользоваться нейросетью, мы рассказывали в большом гайде.
В бесплатной версии 25 попыток. Этого вполне достаточно, чтобы сгенерировать десяток качественных картинок. Ограничения можно убрать, если оплатить подписку, но сделать это российской банковской картой нельзя. Второй способ — создавать новые аккаунты в «Дискорде», но есть риск получить бан.
Как включить Midjourney v5
По умолчанию Midjourney все еще использует четвертую версию нейросети. Пятую можно активировать двумя способами:
- в текстовом поле «Дискорда» пропишите команду /settings и выберите опцию MJ, нажмите кнопку ввода. В открывшихся настройках нажмите на MJ version 5;
- при генерации картинки припишите к текстовому запросу --v 5.
В пятой версии Midjourney могут не работать некоторые функции, к которым пользователи привыкли в четвертом поколении. Например, популярный параметр --niji для генерации аниме. Также придется адаптировать текстовые запросы: не все работают так, как обычно.
Что изменилось в Midjourney v5
Вот что сильно изменилось в сравнении с четвертой версией.
Стилистика. У пятой версии более широкий стилистический диапазон, она лучше считывает запросы. Эффект от указания имени артиста или художественного стиля стал заметнее. Если не указывать стили, то нейросеть по умолчанию будет генерировать фотореализм.
Качество. Разрешение увеличено в два раза, улучшен динамический диапазон. Картинки теперь генерируются сразу в высоком качестве. В четвертой версии нужно было апскейлить каждое изображение вручную и ждать, пока запрос обработается. Теперь кнопка Upscale моментально открывает увеличенную картинку.
Детализация. Нейросеть лучше справляется с мелкими деталями. Например, генерирует по пять пальцев на руках и не добавляет сто ровных зубов. Также разработчики сообщили, что «драматически» улучшили детализацию лиц.
Работа с запросами. Разработчики предупреждают, что короткие запросы в пару слов могут работать не так хорошо, как раньше, поэтому рекомендуют придумывать длинные и детальные промпты.
Запросы лучше писать в форме предложений, а не перечисления. Например, фраза «астронавт, летящий в открытом космосе» даст более предсказуемые результаты, чем «астронавт, летит, открытый космос».
Примеры Midjourney v5
Лучше всего разница заметна в сценариях, когда нейросеть пытается нарисовать реальность: фотографии, пейзажи, интерьеры. Пятая версия гораздо лучше генерирует людей, особенно знаменитостей и персонажей поп-культуры. Если написать «Илон Маск играет в гольф», то вы моментально узнаете основателя Tesla. Корректное количество пальцев и зубов тоже придает эффект реалистичности.
Также Midjourney научилась довольно качественно отрисовывать картинки с большим количеством персонажей. Раньше нейросеть не справлялась с несколькими людьми на одном изображении. Сейчас артефакты все еще видны, но уже на втором-третьем плане.
Мы сгенерировали картинки по одинаковым запросам в четвертой и пятой версии Midjourney, чтобы показать разницу. Слева — v4, справа — v5.
Какие функции добавили в Midjourney v5
Разработчики в экспериментальном режиме добавили три новые функции, но предупредили, что они могут не всегда работать правильно.
Поддержка бесшовных картинок. Для генерации текстуры в конце запроса нужно добавить --tile.
Эта опция плохо справляется с реалистичными изображениями, но хорошо генерирует минималистичные рисунки для фона и текстуры.
Любые соотношения сторон. Четвертая версия Midjourney поддерживала разрешение от 1:2 до 2:1. В пятой можно попробовать сгенерировать картинки с любым соотношением сторон, даже 1:100.
Благодаря такой опции нейросеть неплохо справляется с панорамами и 360-градусными фотографиями.
«Весы» для картинок. В пятой версии можно настроить то, насколько сгенерированное изображение будет похоже на картинку-референс. Для этого в конце нужно указать параметр --iw. Можно ввести значение от 0,5 до 2. По умолчанию используется значение 1.
Чтобы сгенерированная картинка была меньше похожа на вводное изображение, используйте --iw 0.5. Если хотите добиться обратного результата, то попробуйте прописать --iw 2.
Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult.