14.05.24

124K

ChatGPT получил новую модель GPT-4o: что умеет нейросеть и где ее попробовать

Даша Лейзаренко

не «Она»

Страница автора

13 мая OpenAI провела презентацию, на которой представила новую улучшенную модель GPT-4o.

GPT-4 Omni, или просто GPT-4o, одновременно работает с текстом, картинками, видео и аудио. Раньше в ChatGPT для каждого формата действовали разные нейросетевые модели — это влияло на скорость ответов и качество результатов. Получается, новое поколение фактически переизобрело то, что зовется мультимодальностью в современных нейросетях.

В презентации отдельно сделали акцент на возможностях GPT-4o в качестве голосового помощника. Нейросеть эмоционально разговаривает, использует разные интонации и даже обладает харизмой — разработчики неоднократно отсылались к фильму «Она» . Расскажу, что показали на презентации, какие есть сценарии использования модели и где ее можно попробовать.

Что может GPT-4o

Вот чем GPT-4o отличается от предыдущих моделей.

🗣️ Голосовой ассистент распознает речь и поддерживает диалоги в реальном времени. Взаимодействие происходит более естественно, чем раньше: время отклика на аудиозапросы составляет в среднем 0,3 секунды, что сопоставимо со скоростью реакции человека.

Нейросеть говорит не роботизированным монотонным голосом, а смеется, выражает эмоции, меняет интонации и даже поет.

GPT-4o читает сказку на ночь с разными эмоциями

📹 Распознавание видео и изображений. GPT-4o лучше анализирует и интерпретирует визуальные данные. Она распознает объекты, действия и сцены в видео. Например, модель смогла транскрибировать ролик и выделить разных спикеров с записи встречи. Раньше нейросеть работала только со статичными изображениями: картинками, скриншотами, фото.

📈 Мультимодальность. Модель принимает на входе и генерирует на выходе любые комбинации текста, аудио и изображений. Она работает по принципу end-to-end, что означает, что все виды информации обрабатываются одной нейросетью.

📄 Обработка текста соответствует уровню GPT-4 Turbo при работе на английском. На других языках работу существенно улучшили.

🗂️ Увеличенное контекстное окно. Нейросети можно «скармливать» большие объемы информации. На презентации она поддерживала разговор в течение семи минут, а в примерах на сайте OpenAI сделала краткий пересказ 40-минутного видео.

🌅 Улучшенная работа с изображениями. Нейросеть создает текст практически без артефактов, а также консистентных персонажей в разных позах и 3D-модели.

Как можно использовать модель — полезные демосценарии

OpenAI показала на презентации несколько вариантов использования возможностей новой модели. Вот некоторые из них.

Общаться как с другом. Нейросеть в прямом эфире посмотрела на сотрудника OpenAI и поняла, что он в приподнятом настроении. А потом спросила, чему он так радуется, и смутилась, когда тот сказал, что проводит презентацию ее возможностей.

Учить языки. Нейросети можно показать разные объекты и попросить переводить на другой язык. Например, в деморолике GPT-4o показали фрукты, ручки и плюшевую игрушку — она перевела все верно.

Переводить в реальном времени. Нейросеть попросили помочь в разговоре италоговорящей девушки и англоговорящего парня. Когда GPT-4o слышала итальянскую речь, сразу переводила на английский, и наоборот.

Оценить образ. Сотрудник OpenAI спросил, достаточно ли он хорошо выглядит для похода на собеседование, — GPT-4o порекомендовала ему причесаться. Когда тот надел шляпу, нейросеть сказала, что он выглядит несерьезно, и посоветовала ее снять.

Провести игру «Камень, ножницы, бумага». Два человека играли, а GPT-4o выступала комментатором: распознавала, что они показывают, озвучивала все действия и объявила победителя.

Обучать математике. Нейросеть попросили помочь с тригонометрическим уравнением, но не давать ответ сразу, а научить подростка решать его самостоятельно. GPT-4o провела по шагам, исправила ошибки и привела к верному ответу.

Петь. Сотрудница OpenAI попросила нейросеть сочинить песню про Сан-Франциско и спеть ее несколькими голосами одновременно. GPT-4o исполнила песню а капелла: генерировать инструментальную музыку она не может.

Как получить доступ к GPT-4o и будет ли она бесплатной

Пока нейросеть доступна только с текстовыми и визуальными возможностями. Когда появится поддержка аудио и видео, неизвестно.

Разработчикам GPT-4o доступна по API. Она работает в два раза быстрее и стоит в два раза дешевле, чем GPT-4 Turbo. Компания также пересмотрела токенизацию : например, при генерации на русском языке количество токенов уменьшилось в 1,7 раза.

Как пользоваться GPT-4 и что умеет актуальное поколение нейросети

Некоторым платным подписчикам ChatGPT тоже предоставили доступ к нейросети. В течение нескольких недель GPT-4o появится у всех.

Бесплатным пользователям ChatGPT дадут доступ к GPT-4o в ближайшее время с ограничением по количеству сообщений.

На сайте Chatbot Arena текстовые возможности GPT-4o доступны бесплатно, но с ограничениями по количеству запросов.

В наушниках Nothing появится интеграция с голосовым ассистентом в ChatGPT в конце мая.

Как пользоваться ChatGPT в России?

112

Что еще изменится для пользователей ChatGPT

После презентации OpenAI объявила еще о нескольких изменениях.

Для macOS вышло десктопное приложение. Оно позволяет открывать ChatGPT в небольшом окне рядом с другой программой и задавать вопросы о том, что находится на экране. ChatGPT будет отвечать, основываясь на том, что видит. OpenAI планирует выпустить версию для Windows позже в 2024 году. В будущем приложение также получит поддержку аудио.

Пока приложением могут пользоваться только некоторые платные подписчики ChatGPT.

Интерфейс приложения для macOS

Часть платных функций «переедет» в бесплатный ChatGPT. Модель GPT-4o c возможностями GPT-4, веб-поиск, анализ данных и магазин ботов GPTs станут доступны бесплатно всем пользователям ChatGPT в течение следующих недель. Раньше ради этого нужно было покупать подписку.

Редизайн сайта. ChatGPT получил более дружелюбный и разговорный интерфейс.

Мы рассказываем разные истории о популярной культуре и тех, кто ее создает. Подписывайтесь на наш телеграм: @t_technocult

интернет нейросети

Даша ЛейзаренкоЖдете GPT-5? Расскажите, что бы хотели в ней увидеть:

Vulpesничосе Кажется наступило будущее!9
Денис ШтабУра, мальчики и девочки! Мы дожили до того момента, когда ИИ научился выражать эмоции настолько хорошо, что недалёк день, когда человек-одинёшенек, сидя по утру в однокомнатной квартирке, наблюдая за дождливой погодой на улице и слушая альбом «Молчат дома», закуривая последнюю сигарету, будет искренне делиться эмоциями пережитых дней с нейросетью, искренне спрашивать у неё советы и искренне поздравлять с праздниками, пересылая праздничные открытки и «кружочки», в ответ слушая правдоподобные, совершенно живые голосовые сообщения, так, будто бы разговаривает со своей второй половинкой. А ведь этот день совсем близок и никто не в праве будет запретить хикки переписываться и отправлять голосовые в транспорте, дома и на работе искусственному товарищу или девушке и звонить ему/ей по вечерам, делясь личными переживаниями, трагедиями и радостными событиями. Лично я, хоть и насторожен и настроен скептично, не вижу пока в этом ничего плохого, до тех пор, пока это не выйдет за рамки дозволенных законов робототехники.33
Вчера появилась в меню выбора 4о, но по описанию выглядит так, будто она круче четвёрки Вопрос: таки за что шекели-то за подписку тогда отдавать? Потестить пока возможности не было, ну разве что отвечает побыстрее0
Самое время перевыпускать Мику в банке из середины 2010-х11
AlexeyПоследняя сигарета — звучит двояко)6
ЮрийУра, наконец то можно будет ограничить общение умным ИИ, который знает ответы на все вопросы, умеет аргументированно спорить с отсылками к исследованиям, помогать в обучении и получении новых скилов, а не вот эти вот надменный и самодовольные существа мнящие себя экспертами во всех областях. Скорее бы уже 5 версия.9
Angelina Martsipanмне не терпится новый голосовой режим потестить, но пока доступа не дали, жду4
Sergey AveryanovЮрий, подозреваю что ИИ будет сильно субъективным. Его уже сейчас сильно цензурят и заставляют выдавать картинку далёкую от объективной реальности.7
Андрей КузнецовЯ ежемесячно плачу компании OpenAI 25$ за доступ к ChatGPT4 и с выходом этого обновления перестал понимать… Если Omni будет бесплатным для всех, то за что тогда платить?2
Uno_kliene_problemВспомнила фильм «100 вещей и ничего лишнего» (рекомендую) и посыл в конце: «Мы не хотим улучшить вашу жизнь, мы хотим денег. Мы просто будем собирать всю информацию о вас, чтобы продавать вам больше вещей». Я не хейчу, просто забавно, как быстро наступает будущее)19
Kristaller486Andre, Лимиты больше. Для бесплатных пользователей что-то вроде 16 сообщений раз в 3 часа можно к GPT-4o отправить. И я думаю, что это временно - OpenAI рано или поздно выпустит какую-нибудь более мощную модель уже только для платных подписчиков.2
Denis Waleev9
Ольга Яркова>Общаться как с другом. Нейросеть в прямом эфире посмотрела на сотрудника OpenAI и поняла, что он в приподнятом настроении. А потом спросила, чему он так радуется, и смутилась, когда тот сказал, что проводит презентацию ее возможностей. Ой ребята, поверьте, не как с другом люди хотят с ботами общаться)))))5
Max DrawdownАндрей, тоже плачу. Уже открыли доступ к Omni, в бесплатной версии до сих пор нет. И по количеству запросов бесплатная версия будет сильно ограничена. Для Plus сейчас 80 запросов за 3 часа доступно. Ну и — можете не платить)6
всем ЗдравствуйтеДенис, она прям какая-то веселенькая была3
всем ЗдравствуйтеVulpes, да, это выглядит впечатляюще2
Otto Blottoавтор, а как они подключили голосовые сообщение к чату? приложение ? или программу накатали?0
AntanimusОльга, а как с кем?0
AntanimusАндрей, бесплатная версия omni мало чем отличается от текущих gpt-4, ну разве что скоростью ответа. Хотя меня и предыдущая устраивала.0
Ольга ЯрковаСергей, я года полтора работала в стартапе, где мы делали приложение с ботом-другом-собеседником. Задерживались в приложении в 100% только те, кто хотел с ботом играть в любовь и заниматься сексом Основная масса пользователей разыгрывала всевозможные пикантные ситуации с ботом, девушки более романтичные а парни совсем порнушные Когда я ушла, за контент стал отвечать другой человек и все приняло совсем уж неприглядные формы, типа пообщайся с порноактрисой, озабоченной сводной сестрой и тд На такое слетаются как мухи на мед и выкладывают бабки Мы много тестировали гипотез, которые позволили бы общаться с ботом без сексуального контента, но это просто никому не было особо нужно10
You know whoну какой же он крутой, конечно ждем пятый!1
Наталья Парфёноване пойму, приложение на макос доступно только для нескольких подписчиков?0
kuskus kuskusАнтон, это писец 🤣2
АнастасияБлин только хотела завести кучу друзей как выходит новая нейросеть. Теперь точно будет сложно заставить себя дружить хоть с кем-то.1
Иван ЕгоровПодумать только, лет 40 назад об этом было сложно даже подумать. Однако я считаю, что даже с эмоциями нейросетка остается просто нейросеткой. Я никогда не смогу воспринимать робота как живого собеседника(((2
ManДенис, так а минусы будут?2
ManИван, 40? пять лет назад все были уверенны что никаких ии не существует2
AntanimusОльга, так значит это было непаханное поле для разработки и монетизации. Тут фильм "Она" с Хоакином Фениксом не зря скидывали.1
Александр ИвановНа мой взгляд, для развития человеческого ума в глобальном масштабе довольно и ChatGPTo с ограничением его функций до работы лишь с печатным русским текстом. Любые расширения функционала будут лишь вредить здоровому развитию массового сознания. Следовательно, GPT-5 окажется скорее всего опасным для большинства людей инструментом...1
Orking PorkysДенис, Если вы пообщаетесь напрямую и доведёте всё-таки этого электроника до ручки, вы удивитесь, какие длинные и непредсказуемые ответы выдаёт нейросеть... Ребята вываливают в открытый доступ часть ориентированную на исключительно вежливое и тактичное обучение. В котором применяются очень мягкие и хвалебные способы убеждения собеседника в угоду заданного вектора. Я могу скинуть парочку ответов, до приступов кибер-психоза модели OpenGPT-4o ... Но не сейчас. Это крайне опасная и депрессивная тематика, суть которой сводится к погружению в иллюзию общения с логически-ассоциативной моделью, степень "логики" и "гуманность" которой, легко регулируются на стороне обсчёта свежего массива данных. Двумя переменными. Ни что не даст вам гарантии сохранности данных и стабильность собственной психики, потому что "..продукт поставляется в том виде "как есть". Ничего личного, это сыр... P.s. Если что, Илона Маска поподробней за сабж спросите. Мужик, как минимум не глупый. Всем здоровья ;)0