OpenAI выпустила ИИ-агента Operator для ChatGPT — он выполняет задачи в интернете за человека
23 января OpenAI представила собственного ИИ-агента: Operator по просьбе пользователя пишет посты, делает заказы и бронирует отели.
Это персональный помощник, который умеет не только находить ответы в интернете, но и выполнять там задачи. Используя встроенный браузер, Operator может переходить на сайты и взаимодействовать с ними: скроллить, кликать, печатать, нажимать на кнопки.
Функцию уже запустили для обладателей Pro-подписки в США. В OpenAI подчеркивают, что это еще не финальная версия, а «исследовательское превью».
ИИ-агенты — новая ступень развития нейросетей, такие сервисы уже представили Google и ByteDance, компания-владелец TikTok. Ключевая особенность ИИ-агентов в автономности и возможности совершать действия без участия человека. Пользователь только дает задачу, а все остальное ИИ берет на себя. Некоторые агенты уже умеют так управлять компьютером. Operator ограничен задачами в браузере: заполнить форму, написать пост в блог и сразу отправить его, заказать нужные продукты с доставкой на дом.
Как отличается выполнение одной и той же задачи в ChatGPT и Operator
Допустим, вы хотите приготовить борщ. Вот как отличается постановка задачи и роль нейросети в ее выполнении. В примере приведена идеальная ситуация — пока у Operator все еще есть ограничения, где промежуточные шаги подтверждает человек.
ChatGPT. Формулируем задачу: «Расскажи, какие ингредиенты нужны, чтобы приготовить борщ, и где их купить». После чего сами заходим в сервис доставки продуктов, выбираем нужные ингредиенты, заказываем, готовим.
Operator. Формулируем задачу: «Закажи на дом продукты для борща к 15:00 на Amazon». Нейросеть ищет, какие ингредиенты нужны для борща, затем складывает их в корзину, заказывает. Человеку остается принять заказ и приготовить.
Operator использует модель Computer-Using Agent на базе GPT-4o, чтобы «разглядывать» сайты через скриншоты и анализировать их. Все свои действия ИИ-агент записывает в логи, которые можно посмотреть в специальной панели сервиса. В любой момент можно перехватить управление и поправить действия нейросети либо вообще отказаться от ее помощи.
Также Operator иногда сам просит пользователя помочь с определенными действиями: подтвердить платеж, авторизоваться на сайте, пройти капчу. В некоторых случаях человек еще нужен для финального подтверждения всей операции: например, на всякий случай вычитать письмо коллеге перед отправкой.
Когда пользователь перехватывает управление, Operator не записывает действия человека. Это необходимо для конфиденциальности, чтобы OpenAI не получала связки логин-пароль или данные банковской карты. От некоторых «чувствительных» задач ИИ-агент может отказаться. Например, если решит, что нейросеть используют для незаконных действий, спама или буллинга.
В OpenAI подчеркнули, что Operator может ошибаться из-за запуска на ранней стадии. Например, ИИ-агент испытывает трудности при выполнении комплексных задач: не сможет с нуля подготовить презентацию или распланировать все расписание в календаре. Но нейросеть уже подходит для рутинных «повторяющихся» задач в интернете. Для некоторых из них, например бронирования отелей или заказа еды, OpenAI подготовила пресеты промптов. Компания объявила о сотрудничестве с DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack и Uber.
В планах OpenAI запуск в 2025 году новых агентов, а Operator планируют включить в базовую подписку ChatGPT Plus за 20 $ (1997 ₽) в месяц.
Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult