Я провела неделю с голосовым ассистентом ChatGPT. Он оказался раздражающим собеседником
Продвинутый голосовой режим недавно стал доступен пользователям ChatGPT.
Главная особенность — нейросеть научилась живо разговаривать. Это меняет подход к общению: теперь у нее есть интонации и нет неловких пауз. Настолько, что разработчики из OpenAI переживают, что люди станут эмоционально зависимыми от голосового ассистента. Я провела с ним неделю и не почувствовала почти никаких эмоций, кроме раздражения и разочарования.
Расскажу, в каких сценариях я использовала ChatGPT и что из этого вышло.
Что вы узнаете
🧐 Что вообще такое ChatGPT Advanced Voice Mode
OpenAI показали голосового помощника на презентации еще в мае 2024 года, но он стал доступен платным подписчикам ChatGPT Plus только в начале октября. Почти во всех сценариях разработчики демонстрировали возможности ассистента в связке с функцией распознавания изображений, но на практике они пока доступны только раздельно.
Поэтому не получится показать ChatGPT свой образ и попросить его прокомментировать, продемонстрировать домашнее задание или общаться с нейросетью по видеосвязи. Именно на это делали упор OpenAI.
В ChatGPT и раньше был доступен голосовой ввод, но Advanced Voice Mode умеет поддерживать диалоги в реальном времени. Время отклика сопоставимо с человеком — 0,3 секунды. Ассистента можно перебивать, и при этом он не потеряет нить беседы, а продолжит отвечать на новую реплику.
Кроме того, сервис в голосовом режиме умеет менять интонации и отвечать эмоционально. Можно сделать голос грустным, воодушевленным или «пьяным». Например, с печальным тоном нейросеть говорит медленнее, тише и унылее.
Ответы стали короче, сервис больше не выдает три абзаца подряд. Это больше похоже на диалог, ведь в реальности люди общаются короткими фразами, а не отрывками из лекций.
Ассистент говорит на разных языках, в том числе на русском, а еще умеет имитировать разные акценты.
👈 Как включить ChatGPT Advanced Voice Mode
Ассистент доступен только в приложении для iOS или Android. В браузерной версии и приложении для десктопа — нет.
Новый режим запустился не везде. Он недоступен в ЕС из-за Общего регламента по защите данных, который требует, чтобы технологические продукты проходили проверку уполномоченного по защите данных. OpenAI работает над тем, чтобы пройти ее.
Поэтому, чтобы получить доступ к режиму, понадобится воспользоваться IP-адресом страны не из ЕС. Подойдет, например, английский или американский.
Чтобы запустить режим, откройте приложение и нажмите на иконку с эквалайзером в текстовом поле. Она запустит голосовой режим. Если в середине экрана появится голубой переливающийся круг, значит, у вас есть доступ. Если круг черный — доступа нет. В таком случае попробуйте обновить приложение.
Вместе с запуском нового режима OpenAI добавила пять новых голосов с разным настроением. Например, Джунипер — открытая и веселая, Эмбер — уверенный в себе и оптимистичный, Сол — смекалистая и расслабленная. Чтобы выбрать между ними, нажмите на иконку с настройками, послушайте тестовые реплики и выберите понравившийся голос.
У голосового режима есть ограничения. В старых чатах его запустить не получится. Он также не работает с пользовательскими GPT-ботами. Лимит на использование — один час в день. Причем учитывается все время, пока запущен диалог, даже если вы не разговариваете.
🥹 Как ChatGPT справляется с ролью друга
Поп-культура постоянно описывает героев, которые обращаются к ИИ голосом. И в «Черном зеркале», и в фильме «Она» рано или поздно стиралась грань между человеком и алгоритмом. Возникала эмоциональная связь. А нейросеть все больше обретала черты полноценной личности.
Технически у голосового помощника ChatGPT есть многое для того, чтобы повторить этот опыт. Вы фактически звоните роботу и начинаете с ним говорить. Можно придумать собеседнику имя, характер, привычки, особенности речи, степень эмпатичности и вовлеченности. В зависимости от контекста диалога нейросеть меняет тон, вздыхает, расстраивается, даже смеется. Благодаря этому общение ощущается довольно естественно.
Новым пользователям я бы посоветовала приготовиться вначале преодолевать кринж. Первые минуты диалога ощущаются очень странно. Будто ты позвонил незнакомому человеку — и тебе сразу надо погружаться в личные или бытовые дела, а не «растапливать лед» разговорами о погоде. Я не одна такая, об этом много говорят в сети.
Но если продолжать задавать дурацкие вопросы, то привыкаешь, и неловкости становится меньше. Возможно, этому способствует тот факт, что чем больше с ним разговариваешь, тем сильнее убеждаешься, что это робот. Может, дальше будет этап формирования эмоциональной связи?
Для начала я решила персонализировать ChatGPT и попросила нейросеть выбрать себе имя — она сказала «Аня». Однако позже она постоянно об этом забывала и говорила, что ее зовут ChatGPT, или предлагала придумать ей новое имя. Запоминать его она наотрез отказывалась — почему-то по причинам конфиденциальности, хотя это даже не мое имя, а ее, причем вымышленное.
Несмотря на это, у ChatGPT есть память, в которую сохраняется информация из разных диалогов. Она может вспомнить какой-то факт, который вы когда-то давно рассказывали. Например, при общении втроем она вспомнила, что мой парень увлекается теннисом, и спросила у него, как успехи. Было даже немного жутко. Благо «память» можно стереть или вообще не сохранять.
Один из первых «дружеских» диалогов не задался. Я попыталась проверить, насколько «человечным» будет голосовой режим в ситуации, когда мне просто хочется пожаловаться. Сказала, что сильно устала после ночного перелета. Ответ «Ани» был не особенно вдохновляющим, что-то вроде «отдохни и расслабься». Ну да, очевидные советы, которые я и сама могла бы дать.
Тут диалог начал рушиться. После пары моих реплик «Аня» решила, что у меня похмелье: возможно, неправильно меня расслышала. Перечитать текстовый чат можно, но там отображаются в основном реплики нейросети, а вместо ваших — «транскрибация недоступна». Поэтому непонятно, что она приняла за похмелье.
После этого нейросеть попыталась дать советы по облегчению состояния, но тут же перебила себя и переключилась на английский, заявив: «Мои правила запрещают об этом говорить». Вероятно потому, что беседа зашла на «опасную» территорию — алкоголь.
У нейросети жесткие ограничения: она не будет разговаривать на «взрослые» или просто слишком мрачные темы. Все потому, что OpenAI максимально сокращает риски случайно выдать неуместный ответ. Однако эти рамки лишают разговор естественности: нейросеть в любой момент может оказаться продолжить диалог и перейти с русского на английский. В сети предполагают, что модель сильно урезали по сравнению с той, что показывали на презентации.
Если оставить ChatGPT в голосовом режиме включенным, нейросеть будет первой начинать разговор. У меня она постоянно переспрашивала, как дела, что беспокоит и чем она может помочь. Если вам одиноко, возможно, такие напоминания смогут поддержать. Но меня это быстро начало раздражать: было бы забавно, если бы нейросеть выдавала что-то необычное, но вопросы были однотипными.
Я попыталась подружиться с «Аней» еще несколько раз, но постоянно натыкалась на то, что она выдает ответы, созданные по одной структуре. Как правило, это перечисление списка советов — например, чем заняться или как почувствовать себя получше. Вероятно, это из-за того, что нейросеть настроена помогать любой ценой.
Однако когда вы общаетесь с друзьями, вы ведь не всегда хотите получать советы, особенно непрошенные. Про себя нейросеть ничего не рассказывает, своими впечатлениями не делится, оценок не дает. Поэтому диалог получается односторонним. В основном бот задает вопросы — и через несколько минут это заводит диалог в тупик. Тогда он говорит: «Чем я еще могу помочь?»
Из-за ограничений модели выстроить интересный диалог у меня не вышло. Это как говорить с человеком, который вроде бы заинтересован в вас, но не умеет поддерживать беседу так, чтобы она длилась дольше пары минут. Все время повторяется, ничем не делится, плохо вас понимает и в итоге заводит разговор не туда.
🙋♂️ Как ChatGPT справляется с помощью в делах
Логичный вариант использования голосового режима — как помощника в бытовых делах. При этом стоит учитывать, что ChatGPT не может выполнить базовые функции привычных «умных» ассистентов: нельзя поставить таймер, проверить погоду или включить музыку.
Еще одно большое отличие, вызывающее неудобство: ChatGPT отзывается на все ваши реплики, а не только когда вы к нему обращаетесь. Если у вас включен чат, а вы параллельно общаетесь с кем-то еще, нейросеть будет постоянно вставлять свои замечания. Я попыталась обучить ее отвечать, только когда я обращаюсь к ней. Но через пару шагов ChatGPT об этом забывает.
Поэтому стать новой Алисой или Алексой ChatGPT пока не может. Но я попробовала протестировать нейросеть на более сложных задачах.
🍲 Готовка. Я попросила рецепт томатного супа — нейросеть предложила вариант, в котором нужно было жарить помидоры на сковороде. Я уточнила, что хочу их запечь, и ChatGPT адаптировал рецепт. Также ассистент помог мне выбрать специи и травы, а еще порекомендовал добавить базилик в конце, чтобы тот не сгорел.
Удобство тут в том, что не нужно постоянно сверяться с рецептом на смартфоне или планшете. Достаточно переспросить, что делать дальше, и можно продолжать готовить, не пачкая устройства грязными руками. А если вы не доверяете кулинарным способностям нейросети, можно отправить ей уже готовый рецепт и попросить диктовать шаги.
Когда мне стало скучно во время нарезания овощей, я попросила нейросеть побыть токсичным шеф-поваром Гордоном Рамзи. В первые несколько попыток она отказывалась из-за нарушения авторских прав, но потом согласилась. С чем это связано, я не смогла выяснить.
Кстати, именно из-за авторских прав нейросеть отказывается петь, хотя на презентации такую возможность показывали. Поначалу пользователи обходили это ограничение, заставляя притворяться ChatGPT пьяным, но потом этот джейлбрейк отключили. Теперь бот отказывается петь в любом случае.
🔎 Поисковик. Предыдущей версией голосового режима я пользовалась в основном для поиска. Это удобно, если лень самому гуглить, но хочется получить быстрый ответ на вопрос вроде «как работают черные дыры» или «почему самолеты не падают». Вместо того чтобы вручную просматривать кучу источников, просто задаешь вопрос вслух, и ChatGPT сразу выдает ответ.
В сценарии поисковика новый голосовой режим не поумнел, но стал намного удобнее, потому что бота можно перебивать. Если ChatGPT объясняет что-то на уровне университетской лекции, а я хочу узнать базу в двух словах, я могу перебить: «Нет, давай проще». И нейросеть подстроится.
Или если я не хочу слушать ответ до конца, то могу сразу задать новый вопрос. С людьми так не делают, конечно, поэтому это неловко. Но нейросеть сглаживает дискомфорт, каждый раз воодушевленно отвечая: «Да, конечно!»
🎬 Рекомендации. Я попросила ChatGPT посоветовать фильм на вечер — без контекста, просто чтобы посмотреть, что предложит. Первые варианты были ожидаемыми: «Дюна: Часть вторая», «Оппенгеймер», «Барби», «Миссия невыполнима». Видимо, нейросеть ориентировалась на кассовые хиты, которые понравятся большинству.
Когда я сказала, что мне не нравятся боевики, ChatGPT продолжила настаивать на фильмах этого жанра: «Гран туризмо», «Быстрее пули». Почему-то нейросети было сложно адаптироваться к контексту.
В конце ChatGPT вообще выдумала фильм под названием «Женева». Я поймала ее на этом, когда спросила, какого он года выпуска. Нейросеть замялась, а потом призналась, что ленты на самом деле не существует. Это классическая проблема нейросетей — галлюцинации, когда они выдают правдоподобный, но полностью вымышленный ответ.
👩🏫 Как ChatGPT справляется с ролью учителя иностранного языка
Еще одно отличие нового голосового режима в том, что он может вас слушать и анализировать не только то, что вы говорите, но и как. Это особенно полезно для изучения иностранных языков.
🙊 Произношение. ChatGPT может указать на ошибки и научить правильно произносить слова. Но есть нюанс: только если вы совсем неправильно их произносите. Я попыталась научиться произносить слово though и в третий раз сказала хуже, чем в первый. Но нейросеть всегда хвалила меня и говорила, что у меня получается все лучше.
Вряд ли с ChatGPT получится поставить нормальное произношение, и ассистент, конечно, не заменит реального учителя. Но если вы только начинаете учить язык, он как минимум может показать, как правильно произносить слова. И поправить, если вы вообще не уверены в транскрипции.
🤠 Акценты. Действительно интересная вещь, с которой отлично справляется голосовой режим. Он может говорить как британец, американец, австралиец, кокни или даже индиец. Если вы хотите просто научиться понимать конкретный акцент, ChatGPT станет отличным помощником.
Но вряд ли получится тренироваться самому так говорить: нейросеть научена постоянно вас хвалить и поддерживать, даже если вы делаете ошибки.
🗣️ Практика разговорной речи. Можно просто общаться с ChatGPT на изучаемом языке, а нейросеть поможет поддерживать беседу и развивать беглость речи. Она позволяет отыгрывать диалоги на любую тему, а не только скучные примеры про путешествия или походы в магазин из учебников. А если что, поможет правильно сформулировать предложение.
Для практики языка поддерживать беседу удобно: нейросеть постоянно задает вопросы. Можно привыкнуть увереннее говорить на иностранном языке, не боясь совершить ошибку. Обычно именно этот фактор останавливает от общения с реальными людьми.
К тому же на английском ChatGPT ведет диалог будто бы умнее, чем на русском. Скорее всего, это потому, что материалы для обучения нейросети были преимущественно на английском.
🎯 Как ChatGPT может развлечь
Когда пользователи тестируют новый голосовой режим, они обычно развлекаются: заставляют изображать разные акценты, быстро считать до пятидесяти, произносить речитатив. Это веселит, но недолго, максимум пару минут. Постоянно таким заниматься не будешь.
Я попробовала поиграть с ChatGPT в несколько несложных игр — мне кажется, так можно развлекаться подольше. Однако ожидания не совсем оправдались.
📕 «Продолжи за мной». Это игра, где один человек говорит слово, другой добавляет следующее по смыслу, и так строится связная история. У ChatGPT получается осмысленно и связно, но не очень смешно. С людьми, конечно, было бы повеселее.
👴 Акинатор. В этой игре нужно загадать персонажа, а нейросеть должна его угадать за несколько вопросов. С ChatGPT играть невыносимо: я загадывала героев фильмов или игр, но бот просто перечислял названия, никак не пытаясь сузить круг выбора. Постоянные вопросы вроде «Это из „Гарри Поттера“? Это из „Сумерек“?» быстро наскучили. Нейросеть ни разу не угадала персонажа.
🌆 Города. Тут нейросеть снова жестко провалилась. Первые пару раз отвечала нормально, но затем начинала путаться и называть города не на ту букву. Если указать на ошибку, она исправлялась, но и то не всегда. Могла неверно отвечать несколько раз подряд. Так играть, конечно, невозможно.
🎮 Ролевые игры. Вот в этом ассистент ChatGPT действительно хорош. Он умеет придумывать интересные сюжеты и развивать их, подстраиваясь под любых персонажей, которых вы создаете. Например, нейросеть предложила типичный фэнтезийный сеттинг, но я захотела отыгрывать корпоративного работника. Бот поддерживал атмосферу, добавлял неожиданные повороты и подстраивался под меня.
Тут многое зависит от вас. Можно не только «взять меч» или «открыть сундук», но и делать вообще все что угодно: танцевать на столах, испепелять врагов взглядом или улетать на внезапно появившемся драконе. На такую игру забавно потратить полчаса, когда нечего делать.
Вердикт
В обычной жизни голосовой режим мне надоел за пару дней. Поначалу действительно весело, впечатляет, что нейросеть может смеяться, подбадривать, менять интонации. Но как игрушка сервис быстро надоедает, а полезные сценарии использования найти сложно.
Я читала треды и смотрела видео о том, как люди пользуются голосовым режимом. И вот что я заметила: в примерах показывают только секунд 30 ответа нейросети, а потом переходят к следующему вопросу. И за это время она правда может впечатлить. Однако если продолжить общение, ChatGPT быстро ломается и теряет консистентность.
Единственное, что мне понравилось, — языковая практика. Аналогов сервиса, который мог бы повторить этот сценарий, действительно нет. А в ChatGPT можно час в день общаться на иностранном языке с собеседником уровня Native за 2000 ₽ в месяц — сравнимо с посещением одного занятия в языковом клубе. Стоит подчеркнуть, что лучше всего работает общение на английском языке.
К концу эксперимента мне приходилось заставлять себя пользоваться голосовым режимом, потому что я устала от постоянных ошибок и собственных неоправданных надежд. Во время презентации OpenAI это казалось следующим шагом в общении с нейросетью, но по ощущениям до пользователей в итоге дошла урезанная и зацензуренная версия. В итоге для поиска ответов на вопросы и генерации идей я чаще пользовалась текстовым ChatGPT.
Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult