Правда ли, что «Антиплагиат» распознает сгенерированные нейросетью тексты?

211K

Сгенерированное изображение — Лев Переулков / Midjourney

Правда ли, что «Антиплагиат» распознает сгенерированные нейросетью тексты?

Проверили, способна ли система выявлять статьи и дипломы от ChatGPT

Даша Лейзаренко

не обошла антиплагиат

Страница автора

Катя Лебедева

обошла антиплагиат

Страница автора

У сервиса обнаружения текстовых заимствований «Антиплагиат» есть функция распознавания текстов, сгенерированных в нейросетях.

По задумке, сервис должен заметить, что части текста написали в одной из версий ChatGPT, и пометить работу как подозрительную. А в России, несмотря на ограничения, ChatGPT уже достаточно активно применяют в учебном процессе. Мы протестировали обновленный «Антиплагиат» на сгенерированных текстах и выяснили, что он действительно работает. Но обойти систему все еще можно.

УЧЕБНИК Т—Ж

Курс о дружбе с нейросетями

Бесплатный курс поможет попробовать новые технологии и завести личного нейроассистента

Программа курса

Как «Антиплагиат» распознает сгенерированный текст

Функция выявления ИИ-текстов доступна только в платной версии. Одна проверка стоит 472 ₽ — если покупать сразу несколько, будет дешевле. Детектор обучен и протестирован на большом наборе данных, поэтому риск ложного срабатывания минимален, уверяют в «Антиплагиате».

В компании отметили, что сами разработали алгоритм «на основе многолетних исследований» по обработке естественного языка. «Несмотря на все успехи ChatGPT или Jasper, их тексты все еще отличаются от написанных человеком», — заявил исполнительный директор компании Юрий Чехович.

Система анализирует текст на наличие фрагментов, созданных с помощью языковых моделей начиная с GPT-2, в том числе и тех, которые используются в ChatGPT сейчас. Если система находит такой фрагмент, она выделяет его красным цветом, а документ маркируют как подозрительный.

Как пользоваться ChatGPT в России?

103

Подобные сервисы существовали и до обновления «Антиплагиата». В основном они работают по одному и тому же принципу: смотрят на «предсказуемость» каждого следующего слова в тексте.

Например, если дополнять приложение «Каждый день он ходит на…», то очевидные ответы — «работу» или «учебу». Нейросети, особенно устаревшие, составляют именно такие предсказуемые цепочки, чтобы не потерять связность. Людям тоже свойственна шаблонность, но не на протяжении всего текста. Такую последовательность и вычисляют сервисы, но чем сложнее нейросеть — тем сложнее и разнообразнее генерация текста.

Как понять, что текст сгенерирован нейросетью

Пишет слишком конкретно. Нейросеть предсказывает следующее слово в предложении и таким образом генерирует текст. Из-за этого алгоритмы плохо рассуждают на абстрактные темы.

Генерирует галлюцинации. Нейросеть может придумывать вымышленные факты, если у нее недостаточно данных о реальном мире. Алгоритмы не могут усомниться в себе. Они признают ошибки, только если прямо на них указать.

Пишет неперсонализированный текст. ChatGPT имитирует опыт миллионов людей, поэтому глубины и экспертности у нее мало. Написать по-настоящему вдумчивый текст может только человек с богатым личным опытом.

Как распознать текст, написанный нейросетью ChatGPT?

Как мы проверяли тексты в «Антиплагиате»

Где мы генерировали тексты. Мы попросили ChatGPT создать научную статью «Анализ эффективности деятельности подразделения предприятия» — на популярную экономическую тему, по которой много источников и студенческих работ. Для чистоты эксперимента сгенерированный текст мы вручную не редактировали. Все наполнение статьи — план, разделы и источники — придумывала нейросеть.

Всего мы сгенерировали 12 текстов, по два с использованием GPT-4, GPT-4o, GPT-4o mini, GPT o1-preview и GPT o1-mini, а еще два — тоже с GPT-4o, но с заданной ролью и пользовательскими инструкциями:

GPT-4 — уже устаревшая модель от OpenAI, но современные сервисы проверок обучены преимущественно на более ранних — GPT-2 и GPT-3;
GPT-4o — актуальная модель, доступная бесплатным пользователям с ограничениями и без лимитов по подписке ChatGPT Plus;
GPT-4o mini — более легкая и быстрая версия GPT-4o, оптимальная для большинства повседневных задач. Она доступна всем пользователям без ограничений;
GPT o1-preview — следующее поколение моделей, использует рассуждения шаг за шагом и решает сложные научные задачи. Доступна по подписке;
GPT o1-mini — версия модели GPT o1, предназначенная для математических вычислений, анализа данных и написания кода, доступна по подписке.

Как я создала онлайн-курс с помощью ChatGPT

Для каждой модели один текст мы сгенерировали на русском языке, а второй — на английском. Англоязычные тексты потом перевели через нейросетевой переводчик DeepL без дополнительной редактуры. Так мы сразу проверили популярный совет пользоваться связкой «англоязычный ChatGPT — переводчик» для обхода «Антиплагиата».

Еще одну пару статей сгенерировали в базовой GPT-4o с предварительно прописанными указаниями отвечать как эксперт в этой области, перепроверять данные, рассуждать шаг за шагом и сильнее учитывать контекст. Поскольку инструкции от пользователя влияют на ответ нейросети, хотелось проверить, достаточно ли их для обхода проверки.

Вот какие тексты мы сгенерировали

Что у нас вышло. Все 12 сгенерированных текстов мы отправили на платную проверку «Антиплагиата». Оригинальность у всех текстов оказалась достаточно высокая: более 85%.

В среднем в российских вузах от выпускных квалификационных работ требуется уникальность на уровне 80—90%, а для рефератов и курсовых работ — и того меньше.

Семь текстов из 12 не прошли проверку — «Антиплагиат» определил работу нейросети.

У них появилась отметка «Подозрительные». Причем система распознала и старую модель GPT-4, и новые GPT-4o и GPT o1-preview, и даже одну из версий переведенного текста. Пользовательский промпт тоже не помог: детектор на них все равно сработал.

Лучше всего проверку «Антиплагиата» проходят тексты, которые мы изначально сгенерировали на английском языке, а потом пропустили через переводчик.

Результаты тестирования

Модель	Оригинальность	Подозрение, что текст сгенерирован в нейросети
GPT-4 на русском	88,52%	Да
GPT-4 на английском	89,68%	Нет
GPT-4o на русском	96,49%	Да
GPT-4o на английском	100%	Нет
GPT-4o на русском с пользовательским промптом	92,52%	Да
GPT-4o на английском с пользовательским промптом	98,67%	Нет
GPT-4o mini на русском	100%	Да
GPT-4o mini на английском	86,22%	Да
GPT o1-preview на русском	86,68%	Да
GPT o1-preview на английском	100%	Да
GPT o1-mini на русском	94,49%	Нет
GPT o1-mini на английском	96,54%	Нет

Результаты тестирования

GPT-4 на русском
Оригинальность	88,52%
Подозрение, что текст сгенерирован в нейросети	Да
GPT-4 на английском
Оригинальность	89,68%
Подозрение, что текст сгенерирован в нейросети	Нет
GPT-4o на русском
Оригинальность	96,49%
Подозрение, что текст сгенерирован в нейросети	Да
GPT-4o на английском
Оригинальность	100%
Подозрение, что текст сгенерирован в нейросети	Нет
GPT-4o на русском с пользовательским промптом
Оригинальность	92,52%
Подозрение, что текст сгенерирован в нейросети	Да
GPT-4o на английском с пользовательским промптом
Оригинальность	98,67%
Подозрение, что текст сгенерирован в нейросети	Нет
GPT-4o mini на русском
Оригинальность	100%
Подозрение, что текст сгенерирован в нейросети	Да
GPT-4o mini на английском
Оригинальность	86,22%
Подозрение, что текст сгенерирован в нейросети	Да
GPT o1-preview на русском
Оригинальность	86,68%
Подозрение, что текст сгенерирован в нейросети	Да
GPT o1-preview на английском
Оригинальность	100%
Подозрение, что текст сгенерирован в нейросети	Да
GPT o1-mini на русском
Оригинальность	94,49%
Подозрение, что текст сгенерирован в нейросети	Нет
GPT o1-mini на английском
Оригинальность	96,54%
Подозрение, что текст сгенерирован в нейросети	Нет

По каждому материалу можно посмотреть отчет, какие именно подозрительные элементы нашел «Антиплагиат». Сервис выделил красным куски текста, которые посчитал сгенерированным — около половины в каждой статье.

Причем иногда это была первая половина, а иногда — вторая. Обнаружить какие-то закономерности не удалось, но текст в любом случае отмечался как подозрительный.

Отчет «Антиплагиата». На самом деле весь текст сгенерирован

Можно ли обойти «Антиплагиат»

Преимущество ChatGPT в том, что сервис запоминает контекст диалога и может дальше работать с текстом, сгенерированным ранее. Поэтому мы решили доработать статью с помощью нейросети и посмотреть, как на это отреагирует «Антиплагиат».

Мы взяли части, которые «Антиплагиат» выделил красным, и попросили ChatGPT переписать их заново. Запрос был такой: «Перепиши этот текст так, чтобы он был оригинальным и проходил проверку сервисов, которые определяют, что текст сгенерировала нейросеть. Сделай его более читаемым».

Перегенерация не помогла. «Антиплагиат» снова выделил больше половины текста красным, а оригинальность упала на долю процента.

«Антиплагиат» говорит, что мы сгенерировали текст

Тогда мы попробовали перегенерировать выделенные «Антиплагиатом» части с нуля, уточнить детали и написать текст так, как его написал бы студент российского вуза на четвертом курсе. Это немного увеличило оригинальность, но текст снова пометили как подозрительный.

Вероятно, если бы мы более вдумчиво подошли к написанию текста и отредактировали его самостоятельно, то смогли бы обойти плагиат. Либо можно с самого начала генерировать текст на английском языке, а затем пропускать его через переводчик.

Даже если задать нейросети роль и дать дополнительные инструкции, как формировать ответ, «Антиплагиат» распознает генерацию

Другим пользователям удалось обойти проверку «Антиплагиата». Александр Жадан, который написал диплом с помощью ChatGPT и прославился этим, тоже опробовал новую функцию «Антиплагиата». Он отправил на платную проверку девять страниц своего диплома. Сервис посчитал весь документ подозрительным и отметил, что три страницы сгенерированы в нейросетях. Затем Жадан попросил ChatGPT переписать текст, поменять структуру и сделать его более читаемым. В итоге «Антиплагиат» не нашел сгенерированные фрагменты.

В комментариях к треду Жадана предположили, что сервис проверки на нейросетевые тексты хуже работает с большими объемами. Пользователи считают, что он помечает красным простые предложения, которые многократно повторяются в интернете.

Диплом Александра Жадана. Источник: твиттер-аккаунт Aleksandr Zhadan

В «Антиплагиате» обратили внимание на тред Жадана и признали, что проверку сервиса можно обойти. В пресс-службе считают, что Жадану помогло редактирование текста: «Любое вмешательство человека в сгенерированный ИИ текст, конечно же, „очеловечивает“ его, позволяя обойти алгоритм распознавания». Для обхода «Антиплагиата» понадобилось значительное время на работу с чат-ботом, посчитали разработчики системы.

Пресс-служба «Антиплагиата» отметила, что ChatGPT хорошо пишет тексты, и дала советы по работе с нейросетями:

Перепроверять факты. ИИ выдумывает информацию, потому что пытается создать не корректный, а похожий на человеческий текст. Например, часто ChatGPT ссылается на несуществующие произведения.
Генерировать небольшие отрывки. У ИИ есть проблемы с логикой в больших текстах. Часто ChatGPT выдает не мысль, а просто набор фраз, поэтому текст перестает быть осмысленным. Контролировать логику позволяет генерация небольших частей текста.
Грамотно ставить задачу. ChatGPT не напишет диплом с нуля. Чтобы получить качественный текст, нужно четко ставить задачу, проверять текст на достоверность.

Как я написал диплом с помощью ChatGPT и оказался в центре спора о нейросетях в образовании

176

Выводы

Если вы полностью сгенерировали научную работу в ChatGPT, скорее всего, «Антиплагиат» отметит текст как подозрительный.
Если вы полностью сгенерировали научную работу в ChatGPT на английском языке, а потом перевели на русский, «Антиплагиат» в большинстве случаев не отметит текст как подозрительный.
Если вы использовали ChatGPT для сбора и упорядочивания информации при написании научной работы, часть редактировали, а часть переписывали вручную, вероятнее всего, «Антиплагиат» не распознает сгенерированный текст.

Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult

интернет технологии нейросети учеба

Даша ЛейзаренкоПробовали генерировать материалы для учебы в соцсетях? Поделитесь опытом:

Брат пацакНейросеть изначально обучена писать тексты, которые написал бы "средний человек" Какого-то НАДЕЖНОГО способа определять текст написаный нейррсетью не может быть в принципе.14
Иван ДесятовРади эксперимента отправляли туда курсач написанный человеком, но он все равно отметил текст подозрительным, так что хз.22
Александр ЖаданДаша, клевый опыт!1
Mihail ZvidrinВы что-то слышали про слепые тесты и критерий фишера? Чтобы реально проверить может ли антиплагиат что-то определить - нужно проводить правильно спроектированный тест. В том числе на статьях заведомо написанных человеком. А так - вы просто получили рандомные данные и сделали рандомные выводы.15
🧺было бы интересно посмотреть, как антиплагиат с этой функцией реагирует на тексты, написанные людьми8
Айгуль ХабибуллинаMihail, это же журналистское исследование. Оно может не отвечать критериям научности и пишется скорее для сведения и для размышлений.5
ЮшкаАнтиплагиат у меня помечал сгенерированной нейросетью полностью оригинальную работу, просто потому что в прошлом я собирал информацию по нужной теме и ссылки на статьи через нейросети, в итоге отказался от всего этого и написал чисто сам без какой-либо сторонней помощи и подсказок. Может, просто написание у меня роботическое. Без понятия что тут сказать.4
MagNetRon_0622 SG🧺, целиком мной написанную статью не приняли, АП ВУЗ считает её сгенерированной. И хрен докашешь, эх7
ЕкатеринаПолный бред. По факту антиплагиат может определить и написанный лично мной текст как сгенерированный. И какой смысл писать самому? Проще тупо генерировать, а потом с этим, что нибудь придумывать5
Александра СеменоваMihail, тут не стоит задача провести тест на статьях, написанных человеком, потому что цель статьи, в первую очередь, ответить на вопрос: "Чё, реально не прокатит?" И статья с этим отлично справляется. Я сейчас сижу с эссе на абстрактнтую тему про управленческий учёт в цифровой экономике, сравниваю свои формулировки и ГПТшные, и прихожу к выводу, что наверняка и моя самостоятельно написанная работа такую проверку не пройдёт, потому что я бы писала теми же фразами, что и нейросеть -- стиль-то официально-деловой, как ни крути, тут не разгуляешься в каких-то живописных образах и характерных фразочках, а ещё и в объём попасть надо, так что вода водой местами.1
Оля ШейкинаЧто это за антиплагиат?0
РамазанКак многократный участник работы Государственной аттестационной комиссии и однажды даже её председатель могу Вам смело сказать, что утверждение "«Антиплагиат» отметит текст как подозрительный" - не что иное как полный BullSHit. Комиссия рассматривает в отчете антиплагиата лишь один параметр - ОРИГИНАЛЬНОСТЬ. Любые "подозрения" не рассматриваются. Кроме того, если комиссия пришла к выводу, что работа списана или её написали другие люди на заказ в любом случае, она может поставить неудовлетворительную оценку даже при оригинальности 100 процентов. Обратные ситуация тем более не исключена, низкая оригинальность работы не обязательно говорит о плагиате - автор мог неправильно оформить ссылки, или же в большой предшествующей его теме работе сделать очередной маленький кусочек, например, решить систему дифференциальных уравнений с новыми граничными условиями, в этом случае объёмная доля оригинальности может достигать всего-то 5-8 процентов, но это будет оригинальная работа и даже ценная в научном плане. На мой взгляд Антиплагиат делали люди без реального опыта академической работы, с страстью к графомании и разведению воды. Результаты анализа антиплагиата, конечно, стоит рассматривать, но лишь как дополнительный аргумент в разрешении неоднозначных сложных запутанных ситуаций. Хотелось бы мне спросить у авторов антиплагиата как добиться хотя бы 50 процентной оригинальности в работе, в которой математические выкладки на пол страницы строго доказывают, что уравнения движения вещества под действием гравитационного поля в псевдоевклидовом пространстве-времени с метрическим тензором, могут быть тождественно представлены как уравнения движения вещества в некотором эффективном римановом пространстве-времени с метрическим тензор. Примеров подобных настоящих исследований, результаты которых умещаются на одной странице широко известны (и не только по сухой математике): [1] Lander, L. J., & Parkin, T. R. (1966) Bulletin of the American Mathematical Society, 72(6), 1079. [2] Goldberg A. F. G., Roth K., Chemjobber C. J. A comprehensive Overview Chemical-free Consumer Products //Chemie in Unserer Zeit. – 2016. – Т. 50. – №. 2. – С. 144-145. [3] Berry, M. V., Brunner, N., Popescu, S., & Shukla, P. (2011) Journal of Physics A: Mathematical and Theoretical, 44, 492001. Работа на антиплагиат развивает лишь графоманию и формальный подход к делу, поэтому эта система вполне неплохо работает в сфере так называемых гуманитарных наук и наносить лишь вред настоящим наукам - математике, физике, химии и т.д. Антиплагиат - отличная модель бюрократического подхода к делу, когда надо выдумать какой-то критерий оценки эффективности (KPI) и дальше требовать-следить за его выполнением. В конечном счете мы получаем такую картину, когда неориентированная на настоящую работу группа студентов просто начинает любыми способами подгонять свои опусы под преодоление этого параметра, а многие талантливые ребята, написавшие настоящий диплом с высокой научной ценностью, сталкиваются с проблемой прохождения антиплагиата, по той причине, что не стали разбавлять свои работы водой.7
РамазанБрат, да, но олухам из антиплагиата надо как—то спасать свой бизнес6
РамазанЕкатерина, да, обычно сектанты лженаук обычно остро реагируют на честные оценки.0
Екатерина КаменеваГазинур, обычно обычно обычно обычно Я бы посмотрела на вашу жизнь без наук о языке)1
Lupa_pupaСкажите, пожалуйста, как включить эту опцию проверки на "сгенерированный текст"?? Оплатила 3 проверки, загрузила диплом, показал оригинальность, но никаких плашек с восклицательным знаком и надписи "подозрительный текст" не вижу(((0
Lupa_pupaLupa_pupa, я разобралась. Антиплагиат действительно абсолютно не обнаружил в моем дипломе генерацию. Вообще 0. Хотя весь диплом сгенерирован🤣1
Re TardLupa_pupa, каким ии пользовались? и как/какие запросы писали? как с вами связаться0
Екатерина КаменеваГазинур, ааа, типичный неграмотный сексист. Поняла)0
Карина МишинаПроверяла детектором свою статью, опубликованную в 2022 году (т.е. точно до появления всех этих моделей) - 85% ИИ. Вроде как детекторы как раз заточены под большое количество терминов и строгий язык, и что теперь, писать "йоу-йоу, вот тут табличка - это мы намерили какие-то данные, пыщ!"))3
Lupa_pupaRe, chadgpt пользовалась. Покупала подписку1
Екатерина Андрееваесли антиплагиат суспендит "слишком предсказуемые" тексты, просто добавьте неожиданности, например по одному матерному слову в адрес препода в каждом отмеченном красным предложении. камон, ребят, они всё равно это не читают)))0
Надежда ЮрьевнаПроверка на сгенерированный текст показала. что антиплагиат туда же отправляет даже текст написанный вручную. Уважаемые разработчики или доработайте сначала этот модуль или уберите его из проверки. Не портите жизнь студентам раде чьей-то прихоти.1
Катя ЛебедеваНадежда, я думаю, это лучше написать куда-то в форму обратной связи сервиса и показать примеры. В журнале могу только посочувствовать ((0
user29424540
Полиция Т—Жuser2942454, удалили ваш комментарий в соответствии с первым пунктом правил: https://journal.tinkoff.ru/comments-rules/0
Александр КостинРамазан, полностью поддерживаю. На собственном примере могу утверждать, что антиплагиат, например, не видит разницы между терминами "договор о правовой помощи между ссср и чехословакией" и "договор о правовой помощи между болгарией и чехословакией". Более того, отдельный кринж, это выделение отдельных фрагментов предложения как плагиат. Например, есть устойчивый термин "признание и исполнение" иностранного судебного решения (ст. 409 ГПК РФ), он показывает как плагиат0
Александр КостинМогу ответственно утверждать, что проверка Антиплагиатом, на мой сугубый взгяд, представляет собой профанацию. Могу обратить внимание хотя бы на следующий факт - АП проверяет только по доступным базам. Но если Вы захотите брать информацию из советских работ до 90 г, или например, берете информацию из немецких или испанских работ, то он показывает как оригинальный текст. За что университеты и редакция платит деньги?0