ChatGPT получил новую модель GPT-4o: что умеет нейросеть и где ее попробовать

36
ChatGPT получил новую модель GPT-4o: что умеет нейросеть и где ее попробовать
Аватар автора

Даша Лейзаренко

не «Она»

Страница автора

13 мая OpenAI провела презентацию, на которой представила новую улучшенную модель GPT-4o.

GPT-4 Omni, или просто GPT-4o, одновременно работает с текстом, картинками, видео и аудио. Раньше в ChatGPT для каждого формата действовали разные нейросетевые модели — это влияло на скорость ответов и качество результатов. Получается, новое поколение фактически переизобрело то, что зовется мультимодальностью в современных нейросетях.

В презентации отдельно сделали акцент на возможностях GPT-4o в качестве голосового помощника. Нейросеть эмоционально разговаривает, использует разные интонации и даже обладает харизмой — разработчики неоднократно отсылались к фильму «Она»  . Расскажу, что показали на презентации, какие есть сценарии использования модели и где ее можно попробовать.

Письма о технологиях и интернете
Помогут использовать технологии по полной и будут держать в курсе мемов и трендов. В вашей почте дважды в месяц. Бесплатно

Что может GPT-4o

Вот чем GPT-4o отличается от предыдущих моделей.

🗣️ Голосовой ассистент распознает речь и поддерживает диалоги в реальном времени. Взаимодействие происходит более естественно, чем раньше: время отклика на аудиозапросы составляет в среднем 0,3 секунды, что сопоставимо со скоростью реакции человека.

Нейросеть говорит не роботизированным монотонным голосом, а смеется, выражает эмоции, меняет интонации и даже поет.

GPT-4o читает сказку на ночь с разными эмоциями

📹 Распознавание видео и изображений. GPT-4o лучше анализирует и интерпретирует визуальные данные. Она распознает объекты, действия и сцены в видео. Например, модель смогла транскрибировать ролик и выделить разных спикеров с записи встречи. Раньше нейросеть работала только со статичными изображениями: картинками, скриншотами, фото.

📈 Мультимодальность. Модель принимает на входе и генерирует на выходе любые комбинации текста, аудио и изображений. Она работает по принципу end-to-end, что означает, что все виды информации обрабатываются одной нейросетью.

📄 Обработка текста соответствует уровню GPT-4 Turbo при работе на английском. На других языках работу существенно улучшили.

🗂️ Увеличенное контекстное окно. Нейросети можно «скармливать» большие объемы информации. На презентации она поддерживала разговор в течение семи минут, а в примерах на сайте OpenAI сделала краткий пересказ 40-минутного видео.

🌅 Улучшенная работа с изображениями. Нейросеть создает текст практически без артефактов, а также консистентных персонажей в разных позах и 3D-модели.

Генерация текста. Источник: OpenAI
Генерация текста. Источник: OpenAI
Генерация текста. Источник: OpenAI
Робот меняет позы. Источник: OpenAI
Робот меняет позы. Источник: OpenAI
Робот меняет позы. Источник: OpenAI

Как можно использовать модель — полезные демосценарии

OpenAI показала на презентации несколько вариантов использования возможностей новой модели. Вот некоторые из них.

Общаться как с другом. Нейросеть в прямом эфире посмотрела на сотрудника OpenAI и поняла, что он в приподнятом настроении. А потом спросила, чему он так радуется, и смутилась, когда тот сказал, что проводит презентацию ее возможностей.

Учить языки. Нейросети можно показать разные объекты и попросить переводить на другой язык. Например, в деморолике GPT-4o показали фрукты, ручки и плюшевую игрушку — она перевела все верно.

Переводить в реальном времени. Нейросеть попросили помочь в разговоре италоговорящей девушки и англоговорящего парня. Когда GPT-4o слышала итальянскую речь, сразу переводила на английский, и наоборот.

Оценить образ. Сотрудник OpenAI спросил, достаточно ли он хорошо выглядит для похода на собеседование, — GPT-4o порекомендовала ему причесаться. Когда тот надел шляпу, нейросеть сказала, что он выглядит несерьезно, и посоветовала ее снять.

Провести игру «Камень, ножницы, бумага». Два человека играли, а GPT-4o выступала комментатором: распознавала, что они показывают, озвучивала все действия и объявила победителя.

Обучать математике. Нейросеть попросили помочь с тригонометрическим уравнением, но не давать ответ сразу, а научить подростка решать его самостоятельно. GPT-4o провела по шагам, исправила ошибки и привела к верному ответу.

Петь. Сотрудница OpenAI попросила нейросеть сочинить песню про Сан-Франциско и спеть ее несколькими голосами одновременно. GPT-4o исполнила песню а капелла: генерировать инструментальную музыку она не может.

Как получить доступ к GPT-4o и будет ли она бесплатной

Пока нейросеть доступна только с текстовыми и визуальными возможностями. Когда появится поддержка аудио и видео, неизвестно.

Разработчикам GPT-4o доступна по API. Она работает в два раза быстрее и стоит в два раза дешевле, чем GPT-4 Turbo. Компания также пересмотрела токенизацию  : например, при генерации на русском языке количество токенов  уменьшилось в 1,7 раза.

Некоторым платным подписчикам ChatGPT тоже предоставили доступ к нейросети. В течение нескольких недель GPT-4o появится у всех.

Бесплатным пользователям ChatGPT дадут доступ к GPT-4o в ближайшее время с ограничением по количеству сообщений.

На сайте Chatbot Arena текстовые возможности GPT-4o доступны бесплатно, но с ограничениями по количеству запросов.

В наушниках Nothing появится интеграция с голосовым ассистентом в ChatGPT в конце мая.

Что еще изменится для пользователей ChatGPT

Для macOS вышло десктопное приложение. Оно позволяет открывать ChatGPT в небольшом окне рядом с другой программой и задавать вопросы о том, что находится на экране. ChatGPT будет отвечать, основываясь на том, что видит. OpenAI планирует выпустить версию для Windows позже в 2024 году. В будущем приложение также получит поддержку аудио.

Пока приложением могут пользоваться только некоторые платные подписчики ChatGPT.

Интерфейс приложения для macOS
Интерфейс приложения для macOS

Часть платных функций «переедет» в бесплатный ChatGPT. Модель GPT-4o c возможностями GPT-4, веб-поиск, анализ данных и магазин ботов GPTs станут доступны бесплатно всем пользователям ChatGPT в течение следующих недель. Раньше ради этого нужно было покупать подписку.

Редизайн сайта. ChatGPT получил более дружелюбный и разговорный интерфейс.

Мы рассказываем разные истории о популярной культуре и тех, кто ее создает. Подписывайтесь на наш телеграм: @t_technocult

Даша ЛейзаренкоЖдете GPT-5? Расскажите, что бы хотели в ней увидеть:
  • Vulpesничосе Кажется наступило будущее!9
  • Денис ШтабУра, мальчики и девочки! Мы дожили до того момента, когда ИИ научился выражать эмоции настолько хорошо, что недалёк день, когда человек-одинёшенек, сидя по утру в однокомнатной квартирке, наблюдая за дождливой погодой на улице и слушая альбом «Молчат дома», закуривая последнюю сигарету, будет искренне делиться эмоциями пережитых дней с нейросетью, искренне спрашивать у неё советы и искренне поздравлять с праздниками, пересылая праздничные открытки и «кружочки», в ответ слушая правдоподобные, совершенно живые голосовые сообщения, так, будто бы разговаривает со своей второй половинкой. А ведь этот день совсем близок и никто не в праве будет запретить хикки переписываться и отправлять голосовые в транспорте, дома и на работе искусственному товарищу или девушке и звонить ему/ей по вечерам, делясь личными переживаниями, трагедиями и радостными событиями. Лично я, хоть и насторожен и настроен скептично, не вижу пока в этом ничего плохого, до тех пор, пока это не выйдет за рамки дозволенных законов робототехники.31
  • Andre MacarenoВчера появилась в меню выбора 4о, но по описанию выглядит так, будто она круче четвёрки Вопрос: таки за что шекели-то за подписку тогда отдавать? Потестить пока возможности не было, ну разве что отвечает побыстрее0
  • Andre MacarenoСамое время перевыпускать Мику в банке из середины 2010-х11
  • AlexeyПоследняя сигарета — звучит двояко)6
  • ЮрийУра, наконец то можно будет ограничить общение умным ИИ, который знает ответы на все вопросы, умеет аргументированно спорить с отсылками к исследованиям, помогать в обучении и получении новых скилов, а не вот эти вот надменный и самодовольные существа мнящие себя экспертами во всех областях. Скорее бы уже 5 версия.10
  • Angelina Martsipanмне не терпится новый голосовой режим потестить, но пока доступа не дали, жду4
  • Sergey AveryanovЮрий, подозреваю что ИИ будет сильно субъективным. Его уже сейчас сильно цензурят и заставляют выдавать картинку далёкую от объективной реальности.7
  • Андрей КузнецовЯ ежемесячно плачу компании OpenAI 25$ за доступ к ChatGPT4 и с выходом этого обновления перестал понимать… Если Omni будет бесплатным для всех, то за что тогда платить?2
  • Uno_kliene_problemВспомнила фильм «100 вещей и ничего лишнего» (рекомендую) и посыл в конце: «Мы не хотим улучшить вашу жизнь, мы хотим денег. Мы просто будем собирать всю информацию о вас, чтобы продавать вам больше вещей». Я не хейчу, просто забавно, как быстро наступает будущее)18
  • Kristaller486Andre, Лимиты больше. Для бесплатных пользователей что-то вроде 16 сообщений раз в 3 часа можно к GPT-4o отправить. И я думаю, что это временно - OpenAI рано или поздно выпустит какую-нибудь более мощную модель уже только для платных подписчиков.2
  • Denis Waleev9
  • Ольга Яркова>Общаться как с другом. Нейросеть в прямом эфире посмотрела на сотрудника OpenAI и поняла, что он в приподнятом настроении. А потом спросила, чему он так радуется, и смутилась, когда тот сказал, что проводит презентацию ее возможностей. Ой ребята, поверьте, не как с другом люди хотят с ботами общаться)))))5
  • Max DrawdownАндрей, тоже плачу. Уже открыли доступ к Omni, в бесплатной версии до сих пор нет. И по количеству запросов бесплатная версия будет сильно ограничена. Для Plus сейчас 80 запросов за 3 часа доступно. Ну и — можете не платить)6
  • всем ЗдравствуйтеДенис, она прям какая-то веселенькая была3
  • всем ЗдравствуйтеVulpes, да, это выглядит впечатляюще2
  • Otto Blottoавтор, а как они подключили голосовые сообщение к чату? приложение ? или программу накатали?0
  • Сергей ШустовОльга, а как с кем?0
  • Сергей ШустовАндрей, бесплатная версия omni мало чем отличается от текущих gpt-4, ну разве что скоростью ответа. Хотя меня и предыдущая устраивала.0
  • Ольга ЯрковаСергей, я года полтора работала в стартапе, где мы делали приложение с ботом-другом-собеседником. Задерживались в приложении в 100% только те, кто хотел с ботом играть в любовь и заниматься сексом Основная масса пользователей разыгрывала всевозможные пикантные ситуации с ботом, девушки более романтичные а парни совсем порнушные Когда я ушла, за контент стал отвечать другой человек и все приняло совсем уж неприглядные формы, типа пообщайся с порноактрисой, озабоченной сводной сестрой и тд На такое слетаются как мухи на мед и выкладывают бабки Мы много тестировали гипотез, которые позволили бы общаться с ботом без сексуального контента, но это просто никому не было особо нужно10
  • You know whoну какой же он крутой, конечно ждем пятый!1
  • Наталья Парфёноване пойму, приложение на макос доступно только для нескольких подписчиков?0
  • kuskus kuskusАнтон, это писец 🤣2
  • АнастасияБлин только хотела завести кучу друзей как выходит новая нейросеть. Теперь точно будет сложно заставить себя дружить хоть с кем-то.1
  • Иван ЕгоровПодумать только, лет 40 назад об этом было сложно даже подумать. Однако я считаю, что даже с эмоциями нейросетка остается просто нейросеткой. Я никогда не смогу воспринимать робота как живого собеседника(((2
  • ManДенис, так а минусы будут?2
  • ManИван, 40? пять лет назад все были уверенны что никаких ии не существует2
  • Сергей ШустовОльга, так значит это было непаханное поле для разработки и монетизации. Тут фильм "Она" с Хоакином Фениксом не зря скидывали.1
  • Александр ИвановНа мой взгляд, для развития человеческого ума в глобальном масштабе довольно и ChatGPTo с ограничением его функций до работы лишь с печатным русским текстом. Любые расширения функционала будут лишь вредить здоровому развитию массового сознания. Следовательно, GPT-5 окажется скорее всего опасным для большинства людей инструментом...1
  • Orking PorkysДенис, Если вы пообщаетесь напрямую и доведёте всё-таки этого электроника до ручки, вы удивитесь, какие длинные и непредсказуемые ответы выдаёт нейросеть... Ребята вываливают в открытый доступ часть ориентированную на исключительно вежливое и тактичное обучение. В котором применяются очень мягкие и хвалебные способы убеждения собеседника в угоду заданного вектора. Я могу скинуть парочку ответов, до приступов кибер-психоза модели OpenGPT-4o ... Но не сейчас. Это крайне опасная и депрессивная тематика, суть которой сводится к погружению в иллюзию общения с логически-ассоциативной моделью, степень "логики" и "гуманность" которой, легко регулируются на стороне обсчёта свежего массива данных. Двумя переменными. Ни что не даст вам гарантии сохранности данных и стабильность собственной психики, потому что "..продукт поставляется в том виде "как есть". Ничего личного, это сыр... P.s. Если что, Илона Маска поподробней за сабж спросите. Мужик, как минимум не глупый. Всем здоровья ;)1

Вот что еще мы писали по этой теме

Сообщество