Как распознать текст, написанный нейросетью ChatGPT?
Я учитель по литературе. Недавно узнал про сайт ChatGPT: ученики с его помощью пишут сочинения и выдают за свои работы. Можно ли как-то отличить, написал текст человек или нейросеть?
В теории отличить текст, написанный нейросетью, возможно. Исследователи уже несколько лет занимаются тем, что выявляют паттерны ИИ-текста — находят повторяющиеся слова и закономерности в строении предложений и их средней длине.
Но проблема в том, что языковые модели развиваются быстрее, чем их раскусывают. Еще четыре года назад нейросети не могли нормально связать и трех предложений подряд, а теперь выдают логичные тексты. Поэтому способы определить ИИ-текст быстро устаревают.
Что такое ChatGPT
ChatGPT — это чат-бот от компании OpenAI, основанный на новейшей версии языковой модели GPT. В январе 2023 года это модель GPT-3,5. В другой статье в Тинькофф Журнале мы уже подробно рассказывали, как он работает и чем отличается от других нейросетей. Сейчас ChatGPT уже умеет имитировать осознанный диалог с собеседником, учитывать контекст, общаясь с ним, писать тексты, стихи, песни, код, придумывать сценарии, составлять сочинения и эссе для экзаменов.
В конце 2022 года популярностью ChatGPT особенно обеспокоились американские учителя: ученики принялись сдавать им сгенерированные работы. В некоторых школах даже стали блокировать доступ к чат-боту. Российские школьники, по данным СМИ, тоже используют ChatGPT для домашних заданий. Но пока модель не так хорошо справляется с русским языком.
Как человек может отличить ИИ-текст
Нейросеть пишет слишком конкретно. Например, исследователи из Google Brain еще в 2019 году пришли к выводу, что ИИ слишком часто использует артикль the, потому что работает на предсказание следующего слова в предложении. Но понятно, что этот признак присущ только англоязычным текстам.
ChatGPT уже используют как замену поисковым системам, поскольку она дает вполне конкретные ответы. Но с рассуждениями дела у нее обстоят хуже: на вопросы вроде «Что такое любовь?» ИИ выдаст сухую формулировку, а не попытку проанализировать сложное чувство.
Также нейросеть может очень уверенно написать абсолютную неправду. Сомневаться ей не свойственно.
Нейросеть опускает контекст и персонализацию текста. ChatGPT не сможет передать опыт конкретного человека — только попытаться имитировать опыт миллионов людей, на чьих текстах обучена модель. Но таким материалам обычно не хватает глубины и авторского ощущения: одно дело — написать шаблонное сочинение по литературному произведению, и другое — рассказать, как ты провел лето.
С экспертностью то же самое. Многие тексты ChatGPT достаточно полезны, но в них нет углубления в тему. Это может сделать только человек с богатым личным опытом.
При этом новая версия языковой модели гораздо лучше работает с контекстом, чем ее предшественники. Поэтому теоретически уже после генерации можно попросить ChatGPT подредактировать текст и сделать его «более человеческим».

Нейросеть не допускает ошибок. В Google Brain отмечают: люди чаще указывают, что логичный текст без ошибок написал человек. Хотя идеальная грамотность как раз больше присуща ИИ: люди не там ставят запятые, опечатываются, используют сленг и сокращения. Такого уровня имитации нейросети пока не достигли.
Какие сервисы помогут отличить ИИ-текст
С сервисами есть две проблемы. Первая — та же, что и с самостоятельным выявлением ИИ-текста: алгоритмы натренированы на устаревшей GPT-2, которая вышла в 2019 году. Но за три года модель стала в разы сложнее.
Вторая проблема в том, что многие сервисы или вообще не работают с русским языком, или плохо с ним справляются и из-за этого не могут правильно определить авторство текста.
Новых сервисов еще предстоит дождаться, но я расскажу про несколько пока рабочих вариантов. Чтобы их протестировать, я использовал три материала. Первый я сгенерировал на английском языке, второй — на русском, а третий написал мой коллега без помощи ИИ.
GPT-2 Output Detector — это инструмент, который в 2019 году сделала компания OpenAI, разработчик ChatGPT. У него есть простая бесплатная демоверсия. Достаточно загрузить текст на сайт, и алгоритм ответит, какова вероятность, что его сгенерировала нейросеть.
С английским языком у сервиса не возникло никаких проблем — он показал, что мой тестовый текст с вероятностью 99,98% написал ИИ, а не человек. С ИИ-текстом на русском уверенности было меньше — 75%. Текст от моего коллеги он тоже отнес к нейросетевым. Правда, после загрузки другого фрагмента исправился.

GLTR — это сервис исследователей из Гарварда и компании IBM. Он тоже создан для работы с моделью GPT-2, но уже в 2019 году нередко ей проигрывал — угадывал нейросеть в 66% случаев. С другой стороны, и с более продвинутой GPT-3 сервис справлялся на сопоставимом уровне.
Инструмент смотрит на предсказуемость каждого следующего слова в тексте. Работает это так: если попросить дополнить предложение «Как же мне не хочется каждый понедельник с утра идти на…», то очевидным завершением будет «…работу». Другие варианты вроде «…учебу» тоже предсказуемы. Написать так может и человек, но если весь текст воспроизводит предсказуемые шаблоны, то велика вероятность работы ИИ.
Так и вышло с моим сгенерированным материалом на английском языке — GLTR указал, что его написала нейросеть. Но русский язык сервис, к сожалению, не распознает.

GPTZero Classic — сервис 22-летнего американского студента Эдварда Тиана. Он сделал его в январе 2023 года, и инструмент сразу же обрел популярность. В разработке уже продвинутая платная версия GPTZero, но я пользовался бесплатной классической.
Сервис анализирует текст по двум параметрам:
- Perplexity считает предсказуемость текста: люди пишут сложнее и используют менее очевидные сочетания слов.
- Perplexity оценивает структуру и длину предложений.
Понять итоговые оценки сложно, так что после анализа можно пролистать страницу вниз и нажать «Получить результаты».
В моем случае GPTZero верно оценил авторство текста на английском языке, но с русским не справился — выдал ошибку. В соцсетях пишут, что GPTZero легко обмануть, но с базовыми материалами он справится.

ChatGPT — это вариант победить врага его же оружием. Скиньте самой продвинутой нейросети кусок текста и спросите, написал ли его ИИ. Учитывая, что ChatGPT запоминает предыдущие сообщения и остается в контексте диалога, задайте дополнительные вопросы, как чат-бот пришел к своему выводу.
В моем случае нейросеть отлично справилась с материалом, который сама же и сгенерировала. Заодно рассказала, что в тексте приведена слишком базовая и распространенная в сети информация. А вот сгенерированный текст на русском языке ChatGPT принял за человеческий.

Результаты моего тестирования сервисов
GPT-2 Output Detector | GLTR | GPTZero Classic | ChatGPT | |
---|---|---|---|---|
Определил ли ИИ-текст на английском языке | Да | Да | Да | Да |
Определил ли ИИ-текст на русском языке | Да | Выдал ошибку | Выдал ошибку | Принял за человека |
Определил ли текст человека на русском языке | Да, но один раз принял человека за ИИ | Выдал ошибку | Выдал ошибку | Да |
Результаты моего тестирования сервисов
Определил ли ИИ-текст на английском языке | |
GPT-2 Output Detector | Да |
GLTR | Да |
GPTZero Classic | Да |
ChatGPT | Да |
Определил ли ИИ-текст на русском языке | |
GPT-2 Output Detector | Да |
GLTR | Выдал ошибку |
GPTZero Classic | Выдал ошибку |
ChatGPT | Принял за человека |
Определил ли текст человека на русском языке | |
GPT-2 Output Detector | Да, но один раз принял человека за ИИ |
GLTR | Выдал ошибку |
GPTZero Classic | Выдал ошибку |
ChatGPT | Да |
Чего ждать дальше
Крупные платформы внедрят собственные системы проверки ИИ-текстов. Подобные решения уже анонсировали платформа для авторов Medium и ресурс для программистов Stack Overflow. Можно ожидать, что в будущем такие сервисы будут у всех крупных соцсетей и платформ.
У сгенерированных текстов появятся вотермарки. Эту технологию уже разрабатывают в OpenAI. По словам сотрудника компании Скотта Ааронсона, у сгенерированных через GPT текстов будет скрытый криптографический сигнал, который поможет быстро определить авторство. Как именно это будет выглядеть и работать, пока неизвестно. Но в блоге Ааронсон написал, что доступ к ключу будет только у разработчиков GPT.
24.01, 12:18
Архиполезная вещь для тех, у кого английский не родной и нужно выдавать причесанные тексты по разным поводам, особенно хорошо подходит для всякого бизнес-бла-бла-бла. По русской литературе "сочинение" она не выдаст. По английской литературе надо осознавать, что под термином "эссе" там понимается не сочинение как мы его знаем, а что-то вроде письменного ответа при сдаче ЕГЭ: ригидная структура: вступление и оговорки, тезисы (не менее чем / не более чем), заключение. Нормированное число слов в предложении / предложений в абзаце / абзацев в эссе. Любая девиация за пределы установлленных рамок ведет к снижению итогового балла. И с этим ЧатГПТ справляется идельано, потому что по сути американские эссе — это тупо переработка и выжимка информации. Полезный навык, но крайне легко заменяемый, как выяснилось. Ну а русским учителям хотелось бы порекомендовать не давать из года в год шаблонные сочинения на тему "Евгений Печорин и лишние люди в творчестве Некрасова", а смотреть в сторону Франции, где по двум строчкам стихотворения какого-нибудь Апполинера надо накатать философскую телегу на тему "Что есть добро".
24.01, 21:09
Я попросил ChatGPT написать сочинение о лете, максимально подражая человеку, потом в другом диалоге дал ему его же текст и спросил, написан он ИИ или человеком, он ответил, что текст написан человеком из-за личного опыта и переживаний. В итоге ChatGPT обманул сам себя
25.01, 07:52
Без, ChatGPT очень легко надурить, даже в том же самом диалоге она может поменять мнение на противоположное
24.01, 15:19
Человек задал вопрос и не получил на него ответа. Вместо этого - иррелевантные скриншоты на английском языке. Значит ли это, что данная статья написана той же нейросетью? Или ей такое пока не по зубам (как и русский язык вообще)?
25.01, 07:51
Нехетти, ChatGPT может писать и на других языках, русском в том числе, только медленнее и тупит больше
25.01, 07:49
Будущее с ChatGPT
15.03, 06:50
Пробовали проверять все способами, получилось ужасно.
1. GPT-2 Output Detector. Практически все тексты мнёт под то, что это написал бот, хотя 90% текстов, отправленных на проверку, были написаны своими руками (даже до доступа к боту). 2/10
2. GLTR. Тоже мнёт под себя порой, но чуть меньше. На английском мало текстов (в основном всё русское), поэтому точной оценки не дать. 4/10
3. GPTZero Classic. Как и GLTR. 3/10
4. Сам ChatGPT. Постоянно путается, даёт неверные ответы. То, что было написано полностью самостоятельно и своими руками - сказал, что "это мой текст". Что полностью было написано им - сказал, что "нет, это не мой текст". Также, за "свой текст" он может посчитать то, что хоть частично совпадает с материалами, на которых он обучался и которые есть в его базе. Также проверяли на текстах, написанных 3-4 года назад, все эти тексты он ответил "это мой текст", хотя мы про него тогда даже не знали)) 0/10
Забавно, постоянно везде ошибки в распознавании текста от ИИ, какой вообще смысл тогда от этих программ? Уже представляю, как студент 100500+ пашет над своей курсовой САМ, а препод отправит его текст к одно их этих "систем проверки", которая всё мнёт под себя, и отправит студента далеко и надолго, поверив результату проверки. Глупость.
24.01, 11:52
В первый раз слышу на самом деле)
Доводилось только нейросеть Миджорней поковырять, потому что это весьма залипательно, теперь хочется еще и с текстом повозиться попробовать
24.01, 15:19
Константа, прикольно. Ссылочку дадите? Мид знает русский язык?
03.02, 07:41
Нехетти, вот тут инструкция как пользоваться, для этого Дискорд нужен)
https://lifehacker.ru/kak-polzovatsya-midjourney/
25.01, 07:53
Нехетти, Миджорни это текст ту имейдж, а не текст ту текст
25.01, 06:10
Не так давно начала пользоваться chatGPT, и хочу сказать, что довольно быстро втянулась :) по поводу сочинений - может просить учеников сдавать эссе в электроном виде, тогда можно будет скопировать текст и задать прямой вопрос в chatGPT- бы ли этот текст написан здесь?)
17.04, 18:04
Daria, только что заказал ему мини-эссе, а потом показал кусок из него с вопросом: это ты написал? ИИ ответил: "Нет, я не написал этот текст. Он представляет собой обсуждение проблематики использования нейросетей в искусстве, которая вызывает интерес не только среди технических специалистов...". И т.д. Похоже, он запрограммирован не сознаваться в своём авторстве.
18.04, 00:44
Владислав, это смешно :) спасибо, что поделились :)
30.10, 18:58
Использую как раз для «налить воды» в различных работах. Но часто приходится редактировать, ибо добавляет уникальности ( переписывает), увеличивает/ уменьшает объем текста с речевыми или содержательными ошибками
24.01, 16:07
Комментарий удален пользователем
25.01, 09:57
Boris, а что если все статьи на Т-Ж уже давно пишет нейросеть? 😱
25.01, 18:57
Boris, буквально за один вчерашний день прочитала
- статью редактора-"кинокритика", выражавшего своё категоричное субъективное мнение о сериале от лица всех зрителей
- хорошую статью, подредактированную редактор_ками так, чтобы споткнуться сразу об эти неуместные феминитивы
- ещё есть замечательный опросник "письмо психологу", которое публикуется вообще без редактуры и без ответов психолога - вчера там было безответное письмо психологу о суицидальных мыслях
может вы говорите про Т-Ж 2018 года?)
24.01, 11:45
Комментарий удален пользователем
24.01, 12:08
lazex, убрали часть комментария в соответствии с первым пунктом правил: https://journal.tinkoff.ru/comments-rules/