Нейросеть Dall-E 3: как пользоваться ИИ от OpenAI для генерации картинок

Нейросеть Dall-E 3: как пользоваться ИИ от OpenAI для генерации картинок

Больше не нужно учиться составлять запросы — нейросеть и это сделает за вас
12
Аватар автора

Даша Лейзаренко

рисует мемы с грустным котом

Страница автора

В конце сентября компания OpenAI представила третье поколение нейросети Dall-E — конкурента Midjourney и Stable Diffusion.

Dall-E 3 может генерировать картинки в разных стилях. Она доступна бесплатно, не требует мощного компьютера, а еще с ней можно не учиться составлять промпты. Вы пишете запрос, а нейросеть сама «докручивает» идею и генерирует картинку. Рассказываем, где воспользоваться Dall-E 3 и в чем ее особенности.

Что такое Dall-E 3

OpenAI, разработчик революционного чат-бота ChatGPT, выпустил Dall⁠-⁠E в 2021 году. Это была одна из первых нейросетей, которые умеют качественно рисовать картинки по текстовому описанию. Однако у простых пользователей доступа к ней не было.

Весной того же года появилась упрощенная модель Dall⁠-⁠E mini, которая прямо в браузере генерировала девять не очень качественных, но узнаваемых картинок по текстовому промпту. Плохое качество понравилось интернету, нейросеть завирусилась, там стали делать странные генерации, ставшие мемными.

Генерации в Dall⁠-⁠E mini
Генерации в Dall⁠-⁠E mini
Генерации в Dall⁠-⁠E mini

В начале 2022 года OpenAI представила Dall⁠-⁠E 2, которая генерировала картинки более высокого качества и поддерживала запросы на русском языке. Нейросеть появилась даже раньше, чем первые версии Stable Diffusion и Midjourney, которые набрали широкую популярность благодаря открытому и бесплатному доступу.

Доступ к Dall-E 2 можно было получить только через список ожидания. Это мало кому удавалось, так что в интернете эту версию практически не обсуждали. В сентябре 2022 года нейросеть открыли для всех: Dall-E 2 была доступна на сайте OpenAI и позже в поисковике Bing.

Генерации Dall⁠-⁠E 2
Генерации Dall⁠-⁠E 2

Dall⁠-⁠E 3 представили в конце сентября 2023 года, а публичный доступ к ней появился в начале октября.

Нейросеть доступна бесплатно через Bing Image Creator и по платной подписке в ChatGPT. Доступа к API пока нет, его обещали предоставить позже.

Какие у Dall-E 3 особенности

Больше не нужно учиться промптингу. Чтобы генерировать картинки в большинстве популярных нейросетей, например Midjourney или Stable Diffusion, нужно изучать их синтаксис. Это означает, что придется учиться составлять запросы по специальной формуле на английском языке и указывать неочевидные дополнительные параметры.

Dall-E 3 поддерживает русский язык и понимает естественную речь. С ней можно общаться так же, как вы разговариваете с людьми, и вносить правки, если вас не устраивает результат. К примеру, в нейросети сработает как запрос «нарисуй мне фиолетового анимешного кота», так и «фиолетовый кот, аниме» или даже «🐱💜».

Текстовая нейросеть прочитает ваш запрос и перепишет его так, чтобы алгоритм, который генерирует картинки, лучше понял, что вы хотите получить. Из-за этого генерации получаются разнообразнее, а один и тот же запрос может выдавать абсолютно разные результаты.

Как Dall⁠-⁠E 3 генерирует картинку

  1. Пользователь пишет запрос.
  2. Неизвестная версия GPT в Bing или GPT-4 в ChatGPT переписывает этот запрос согласно своей встроенной инструкции.
  3. Dall-E 3 генерирует изображение на основе модифицированного запроса.

Запрещен любой оскорбительный контент. В Dall-E 3 нельзя генерировать сцены, содержащие насилие, ненависть или NSFW-контент. Однако в первые дни после запуска Dall-E 3 в Bing Image Creator пользователи принялись делать картинки «на грани». В генерациях персонажи поп-культуры врезались в башни-близнецы или позировали для обложек эротических журналов. После этого для Dall-E 3 усилили цензуру: теперь там не получится сгенерировать даже удар молотком или гору человеческих костей. Теперь многие жалуются, что алгоритму сделали «лоботомию», и ищут способы обхода ограничений.

Знаменитостей и общественных деятелей сгенерировать тоже не получится — запрос вернется с ошибкой. OpenAI ввела этот запрет «ради безопасности». Судя по всему, компания учла опыт Midjourney: в 2022 году пользователи сгенерировали в этой нейросети Папу Римского в пуховике «Баленсиага» и арест Дональда Трампа. Позже СМИ пришлось объяснять, что это не настоящие снимки.

Нейросеть отказывается имитировать стиль художников, живших в последние сто лет. Dall-E 3 не станет генерировать кадр из фильма Уэса Андерсона или картину Сальвадора Дали из-за нарушения авторских прав. При этом нейросеть может имитировать чужой стиль, если описать его словами без упоминания имени художника.

Вероятно, такое решение принято, чтобы избежать судебных разбирательств из-за копирайта. Художники уже подавали в суд на разработчиков Stable Diffusion и Midjourney, потому что работы без их согласия использовали для обучения нейросетей. Кроме того, если художник заметит, что Dall-E 3 все-таки обучалась на его работах, то может обратиться к OpenAI и попросить заблокировать генерацию таких изображений.

Как пользоваться Dall-E 3

В Bing Image Creator

Шаг 1. Перейдите с иностранным IP-адресом на страницу Bing Image Creator в любом браузере. Другой способ: нажмите на иконку Bing Image Creator в сайдбаре браузера Microsoft Edge.

Шаг 2. Войдите в свой профиль Microsoft или зарегистрируйтесь, если у вас его нет.

Шаг 3. Напишите запрос в поле и нажмите «Создать» или кликните на кнопку «Удиви меня» — в этом случае нейросеть сама напишет промпт.

В день дается 25 «ускорений». Когда они закончатся, картинки будут генерироваться медленнее. Это ограничение нужно, чтобы снизить нагрузку на серверы. Докупить ускорения нельзя.

Шаг 4. Сохраните картинку. По запросу сгенерируются три или четыре изображения — от чего это зависит, неясно. Каждая картинка создается в формате 1024 × 1024 пикселя. Поменять соотношение сторон или разрешение нельзя. Чтобы сохранить, нажмите на понравившийся результат и выберите «Загрузить».

Нажмите «Присоединиться и создать»
Напишите запрос и нажмите «Создать»
Выберите понравившийся вариант
Сохраните картинку
Как пользоваться Dall-E 3

В ChatGPT Plus

Дисклеймер

Доступ к Dall-E 3 добавляют подписчикам ChatGPT Plus постепенно. К моменту написания текста у нас функция появилась, но некоторые пользователи ChatGPT в соцсетях пишут, что у них ее до сих пор нет.

Шаг 1. Перейдите на сайт ChatGPT и зарегистрируйтесь, если у вас еще нет аккаунта. Для этого потребуется иностранный IP-адрес и зарубежный номер телефона. О том, как пройти регистрацию из России, мы подробно рассказывали в гайде.

Шаг 2. Оформите платную подписку ChatGPT Plus. В правом меню нажмите Upgrade to Pro, выберите Upgrade Plan и оплатите подписку международной картой. Российские карты сайт OpenAI не принимает. Подписка стоит 20 $⁣ (1950 ₽) в месяц.

Шаг 3. Создайте новый чат, вверху выберите GPT-4, в выпадающем окне нажмите Dall-E 3 и напишите запрос. В чате вы одновременно обращаетесь к GPT-4 и Dall-E 3, поэтому если вы зададите общий вопрос, то нейросеть ответит текстом. Чтобы началась генерация изображения, попросите нейросеть нарисовать, сгенерировать или придумать картинку.

GPT-4 дополнит ваш запрос и на его основе напишет четыре промпта, по которым Dall-E 3 сгенерирует картинки. Расширенные запросы можно посмотреть, кликнув на сгенерированную картинку. Они появляются справа в поле «Подсказка».

По умолчанию нейросеть генерирует четыре картинки размером 1024 × 1024 пикселя. В запросе можно указать, чтобы нужны горизонтальные (1792 × 1024 пикселя) или вертикальные (1024 × 1792 пикселя) картинки.

Шаг 4. Выберите лучший вариант, нажмите на него или просто наведите курсор. Нажмите на кнопку сохранения.

Откройте новый чат
Выберите Dall⁠-⁠E 3 в бета⁠-⁠функциях
Введите запрос
Выберите понравившийся результат
Сохраните

Какие результаты получаются в Dall-E 3

Мы протестировали Dall-E 3 в ChatGPT. И вот в чем она хороша.

Креативные идеи. Нейросеть отлично понимает промпты, не пропускает слова в запросе и прорабатывает мелкие детали. Благодаря этому в ней можно сгенерировать практически любую идею. Она постарается понять ваш запрос и переписать его так, чтобы ничего не упустить.

Dall-E 3 также отлично знает мемы и поп-культуру, хотя из-за фильтров там не получится сгенерировать популярных персонажей вроде Марио или Чужого. При этом фильтр иногда не срабатывает — нам удалось сгенерировать логотип «Читос», хотя он тоже защищен авторским правом.

Фигурка инвестора
Картинка для соцсетей журнала про деньги
Ретрофото инопланетянина в стоматологическом кресле
Реклама дезодоранта с запахом «Читос»
Концерт рок⁠-⁠группы в супермаркете
Мем с Доге

Текст. У Dall-E 3 получаются красивые комиксы, графики, схемы, чего сложно добиться в других нейросетях. Правда, текст в них зачастую несвязный и с лишними буквами или символами. К тому же нейросеть генерирует только текст на английском.

При этом если вам нужно сгенерировать пару слов на логотипе, то получится хорошо.

Анатомия эмодзи
График расширения Вселенной
Комикс о том, как покупать деньги
Картинка с киберпанк-жабой и подписью Techocult
Мем с грустным котом

Стили. Dall-E 3 генерирует картинки в разных медиумах и форматах. Хотя имена художников использовать нельзя, нейросеть не всегда отказывается генерировать по таким запросам: в промпте она заменяет имя артиста на описание его стиля.

Иногда фильтр, защищающий от нарушений авторского права, получается обойти. Например, если использовать искаженное имя художника или попросить не переписывать запрос, а точно ему следовать.

Фото кота на пленку
Лего⁠-⁠кот
Абстрактный кот
Кот в стиле Тарковского

Фотореализм. Dall-E 3 пока не очень хорош в генерации реалистичных фотографий. Линии на снимках получаются слишком плавными — сразу видно, что они сгенерированы в нейросети.

Stable Diffusion и Midjourney генерируют фотореализм на порядок лучше. Пользователям даже удавалось выдавать сгенерированные снимки за настоящие.

Сгенерированные фото разных людей
Сгенерированные фото разных людей
Сгенерированные фото разных людей

Чем генерация в ChatGPT отличается от Bing Image Creator: советы

В чате с GPT-4 вы можете посмотреть, как нейросеть переписала ваш запрос, кликнув на картинке. Bing Image Creator эту информацию не показывает.

Пользователи Reddit нашли большую инструкцию, которой следует GPT-4, когда переписывает ваш запрос. В ней указаны ограничения и рекомендации, которым должна следовать нейросеть. По сути, она действует как посредник между вами и Dall-E 3.

Вот как можно оптимизировать «посредничество» GPT-4 при составлении запроса.

Попросите не слишком сильно расширять ваш запрос. Нейросеть превращает любой запрос даже из одного слова в очень детальный параграф текста, который состоит как минимум из трех предложений. Часто это полезно и удобно, но иногда GPT-4 слишком радикально модифицирует запрос, что приводит к неудовлетворительным результатам. В таком случае попросите GPT-4 создать короткий и лаконичный промпт.

Попросите вообще не модифицировать ваш запрос. Если вы уверены в своем промпте, то отправьте его Dall-E 3 таким, какой он есть, безо всяких изменений. Одновременно можно отправлять четыре промпта на английском языке.

Указывайте медиум. Если вы не укажете, что хотите получить — фото, картину, кадр из фильма, иллюстрацию, — то нейросеть сгенерирует абсолютно разные изображения. В результатах будет все подряд: и фото, и картинка, и иллюстрация. Если хотите получить фотографии, то прямо прописывайте это, нейросеть сгенерирует четыре снимка.

Какая инструкция используется в Bing Image Creator — неизвестно. Повлиять на «посредничество» версии GPT из Bing не получится.

Что в итоге

  1. Dall-E 3 — отличный аналог Midjourney и Stable Diffusion. В отличие от первой, она доступна бесплатно, а в отличие от второй — не требует мощного компьютера и навыков программирования.
  2. А еще нейросеть не требует навыков промптинга. Запросы можно писать на русском языке и естественным языком, не расписывая детали. Dall-E 3 додумает за вас.
  3. Dall-E 3 прекрасно понимает запрос и не упускает детали. Благодаря этому она хороша в генерации креативных идей. Умеет генерировать разные стили, мемы и текст, но в фотореализме уступает другим нейросетям.
  4. У Dall-E 3 есть ограничения: нельзя генерировать знаменитостей и картинки в стиле художников, живших в последние сто лет. Последнее ограничение можно обойти.

Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult

Даша ЛейзаренкоУже пробовали Dall-E 3? Расскажите о своем опыте:
  • Владимир ЛапшинОпрос неполный. Для разных задач лучше подходят разные нейронки. Что-то совершенно не получается в одной, зато с первого запроса получается в другой. Поэтому пока эффективнее совмещать.2
  • Владислав Шевченко>Dall-E 3 поддерживает русский язык Bing Image Creator поддерживает только английский: https://www.bing.com/images/create/help Можно написать запрос на русском, но он будет автоматически переведен на английский с возможной потерей точности. >Неизвестная версия GPT в Bing Можно выбрать между GPT-4(точно, это прямо написано в приложении) и GPT-3.5(вероятно, тут я только косвенные подтверждения нашел). >Докупить ускорения нельзя. Можно докупить за баллы Microsoft Rewards. >По запросу сгенерируются три или четыре изображения — от чего это зависит, неясно. От эджевости запроса. Генерируется всегда четыре, но фильтр пропускает только те, на которых запрещенку не найдет. В итоге может выдать и две, и одну. И это также значит, что если ничего не выдалось с первого раза, то вполне может выдаться со второго-пятого-десятого. >Нейросеть отлично понимает промпты, не пропускает слова в запросе и прорабатывает мелкие детали. Ну, это громко сказано. У меня часто в случае подробных промптов бывает, что сетка в одной картинке учтёт одну половину деталей и не учтёт вторую, а на другой - учтёт вторую, но не учтёт первую. И сидишь пытаешься заставить её учесть всё сразу (и везде). >не получится сгенерировать популярных персонажей вроде Марио или Чужого. Да нет, именно персонажей спокойно генерирует(пикрелейтед). Бывают проблемы с живыми людьми, но и то не со всеми. Например, я генерил картинки со мстителями, промпт с Крисом Хемсвортом сразу блокировался, еще до генерации, а с Эвансом - спокойно пропускался. Но если написать только фамилию, например "Hemsworth as Thor" - то тоже пропускает. >В чате с GPT-4 вы можете посмотреть, как нейросеть переписала ваш запрос, кликнув на картинке. Bing Image Creator эту информацию не показывает. Если задать промпт через чат Bing, а потом перейти по выданной им ссылке в Creator, то будет видно, как был отредактирован запрос.8
  • The AxolotlА эти ускорения в Bing, они как работают? Выдаётся какое-то кол-во ежедневно? Я использовал быстро все ускорения, а потом он стал писать "ожидание 6 часов"0
  • Юрий Р.Ускорения даются каждые 24 часа. Можно, как вариант, иметь несколько учеток (email) на outlook.com и соответственно, сколько учеток, столько и ускорений) На самом деле если каждый день пользоваться, то хватает, но нам же всегда нужно всё сразу и сегодня. Выдается в день 15 ускорений, хотя написано, что 25.0
  • Юрий Р.Больше не нужно учиться промптингу – на самом деле не совсем верное утверждение. Да, текст можно писать как есть, но если Dall-E 3 тебя не понял и выдал голимую чушь, то приходится промтить) Нужно учесть, что доступ к Dall-E 3 сейчас доступен только через VPN. Я использую Browsec VPN, он полностью бесплатный и нет ограничений. Полностью бесплатно Dall-E 3 можно пользоваться через Creator в bing.com Dall-E 3 поддерживает русский язык – в инструкции написано, что Dall-E 3 понимает только английский, однако, если написать по-русски, то сайт выдаст изображение к русскому тексту. Так что пользоваться русским языком можно. Но и транслейт-гугл никто не отменял. В день дается 25 «ускорений» – на самом деле, на конец октября, дается только 15 ускорений в день. Через 24 часа ускорения обновляются. Можно использовать несколько учетных записей outlook.com, чтобы умножить количество ускорений на количество учёток. Когда они закончатся, картинки будут генерироваться медленнее. Докупить ускорения нельзя – НО их можно получить, пройдя некоторые тупые тесты на bing.com. 5 ускорений можно купить за 500 баллов, однако баллов в день можно получить только 200-300. Так что затея так себе. Проще использовать несколько учётных записей. Картинки (и фото) получаются прекрасные. Намного лучше Кандинского) Фото приложено из Dall-E 3.1
  • SlavaWOWЮрий, Я нашел баг, если ты сбросишь журнал Bing, и перезайдешь на сайт, то у тебя восстановятся ускорения, но при этом все картинки исчезнут с истории, а картинки можно скачивать перед удалением истории.4
  • Юрий Р.SlavaWOW, Прикольно. История мне особо не нужна, учитывая, что я уже пользуюсь тремя учетками, а картинок так много, что историю невозможно просматривать. Я сразу сохраняю картинки в нужные места, так что такой баг будет очень полезен. Спасибо! Только ш-ш-ш, чтобы за бугром об этом не услышали!))))) Попробовал - подтверждаю, реально работает. Эх, капиталисты, никогда вам Россию не победить!3
  • Миндаль Дандля коммерческого использования изображения, как я понимаю, не подходят? Я нашла вопрос на англоязычной части форума майкрософт, какой то ибрагим отвечает, что дескать нельзя и дает ссылку, которая сейчас не открывается...1
  • АлександрВот одна моя любимая картина. Вот промт:portrait of a young lady in an 18th century dress with a fan and a small and fluffy dog sitting on the street tables of a cafe in the style of Claude Monet1
  • АлександрAn astronaut on horseback walks on the planet of red roses. The earth and stars can be seen in the background1
  • Максим МЛПолучил бан без причины! Только потому что, тупая программа считает слово «Шизойд» оскорблением! Неясно как получить разбан?! Но, по такой логике, оскорблением может быть что угодно. Даже собака сука...0
  • Максим МЛМиндаль, Подходят. Если нейросеть рисует арт которого нет на просторах интернета, можно использовать как угодно и для чего угодно...0