Правда ли, что «Антипла­гиат» распо­знает сгенериро­ванные нейросетью тексты?
Нейросети
199K
Сгенерированное изображение — Лев Переулков / Midjourney

Правда ли, что «Антипла­гиат» распо­знает сгенериро­ванные нейросетью тексты?

Проверили, способна ли ​система выявлять статьи и дипломы от ChatGPT
23
Аватар автора

Даша Лейзаренко

не обошла антиплагиат

Страница автора
Аватар автора

Катя Лебедева

обошла антиплагиат

Страница автора

У сервиса обнаружения текстовых заимствований «Антиплагиат» есть функция распознавания текстов, сгенерированных в нейросетях.

По задумке, сервис должен заметить, что части текста написали в одной из версий ChatGPT, и пометить работу как подозрительную. А в России, несмотря на ограничения, ChatGPT уже достаточно активно применяют в учебном процессе. Мы протестировали обновленный «Антиплагиат» на сгенерированных текстах и выяснили, что он действительно работает. Но обойти систему все еще можно.

Как «Антиплагиат» распознает сгенерированный текст

Функция выявления ИИ-текстов доступна только в платной версии. Одна проверка стоит 472 ₽ — если покупать сразу несколько, будет дешевле. Детектор обучен и протестирован на большом наборе данных, поэтому риск ложного срабатывания минимален, уверяют в «Антиплагиате».

В компании отметили, что сами разработали алгоритм «на основе многолетних исследований» по обработке естественного языка. «Несмотря на все успехи ChatGPT или Jasper, их тексты все еще отличаются от написанных человеком», — заявил исполнительный директор компании Юрий Чехович.

Система анализирует текст на наличие фрагментов, созданных с помощью языковых моделей начиная с GPT-2, в том числе и тех, которые используются в ChatGPT сейчас. Если система находит такой фрагмент, она выделяет его красным цветом, а документ маркируют как подозрительный.

Подобные сервисы существовали и до обновления «Антиплагиата». В основном они работают по одному и тому же принципу: смотрят на «предсказуемость» каждого следующего слова в тексте.

Например, если дополнять приложение «Каждый день он ходит на…», то очевидные ответы — «работу» или «учебу». Нейросети, особенно устаревшие, составляют именно такие предсказуемые цепочки, чтобы не потерять связность. Людям тоже свойственна шаблонность, но не на протяжении всего текста. Такую последовательность и вычисляют сервисы, но чем сложнее нейросеть — тем сложнее и разнообразнее генерация текста.

Как понять, что текст сгенерирован нейросетью

Пишет слишком конкретно. Нейросеть предсказывает следующее слово в предложении и таким образом генерирует текст. Из-за этого алгоритмы плохо рассуждают на абстрактные темы.

Генерирует галлюцинации. Нейросеть может придумывать вымышленные факты, если у нее недостаточно данных о реальном мире. Алгоритмы не могут усомниться в себе. Они признают ошибки, только если прямо на них указать.

Пишет неперсонализированный текст. ChatGPT имитирует опыт миллионов людей, поэтому глубины и экспертности у нее мало. Написать по-настоящему вдумчивый текст может только человек с богатым личным опытом.

Как мы проверяли тексты в «Антиплагиате»

Где мы генерировали тексты. Мы попросили ChatGPT создать научную статью «Анализ эффективности деятельности подразделения предприятия» — на популярную экономическую тему, по которой много источников и студенческих работ. Для чистоты эксперимента сгенерированный текст мы вручную не редактировали. Все наполнение статьи — план, разделы и источники — придумывала нейросеть.

Всего мы сгенерировали 12 текстов, по два с использованием GPT-4, GPT-4o, GPT-4o mini, GPT o1-preview и GPT o1-mini, а еще два — тоже с GPT-4o, но с заданной ролью и пользовательскими инструкциями:

  • GPT-4 — уже устаревшая модель от OpenAI, но современные сервисы проверок обучены преимущественно на более ранних — GPT-2 и GPT-3;
  • GPT-4o — актуальная модель, доступная бесплатным пользователям с ограничениями и без лимитов по подписке ChatGPT Plus;
  • GPT-4o mini — более легкая и быстрая версия GPT-4o, оптимальная для большинства повседневных задач. Она доступна всем пользователям без ограничений;
  • GPT o1-preview — следующее поколение моделей, использует рассуждения шаг за шагом и решает сложные научные задачи. Доступна по подписке;
  • GPT o1-mini — версия модели GPT o1, предназначенная для математических вычислений, анализа данных и написания кода, доступна по подписке.

Для каждой модели один текст мы сгенерировали на русском языке, а второй — на английском. Англоязычные тексты потом перевели через нейросетевой переводчик DeepL без дополнительной редактуры. Так мы сразу проверили популярный совет пользоваться связкой «англоязычный ChatGPT — переводчик» для обхода «Антиплагиата».

Еще одну пару статей сгенерировали в базовой GPT-4o с предварительно прописанными указаниями отвечать как эксперт в этой области, перепроверять данные, рассуждать шаг за шагом и сильнее учитывать контекст. Поскольку инструкции от пользователя влияют на ответ нейросети, хотелось проверить, достаточно ли их для обхода проверки.

Вот какие тексты мы сгенерировали

Что у нас вышло. Все 12 сгенерированных текстов мы отправили на платную проверку «Антиплагиата». Оригинальность у всех текстов оказалась достаточно высокая: более 85%.

В среднем в российских вузах от выпускных квалификационных работ требуется уникальность на уровне 80—90%, а для рефератов и курсовых работ — и того меньше.

Семь текстов из 12 не прошли проверку — «Антиплагиат» определил работу нейросети.

У них появилась отметка «Подозрительные». Причем система распознала и старую модель GPT-4, и новые GPT-4o и GPT o1-preview, и даже одну из версий переведенного текста. Пользовательский промпт тоже не помог: детектор на них все равно сработал.

Лучше всего проверку «Антиплагиата» проходят тексты, которые мы изначально сгенерировали на английском языке, а потом пропустили через переводчик.

Результаты тестирования

МодельОригинальностьПодозрение, что текст сгенерирован в нейросети
GPT-4 на русском88,52%Да
GPT-4 на английском89,68%Нет
GPT-4o на русском96,49%Да
GPT-4o на английском100%Нет
GPT-4o на русском с пользовательским промптом92,52%Да
GPT-4o на английском с пользовательским промптом98,67%Нет
GPT-4o mini на русском100%Да
GPT-4o mini на английском86,22%Да
GPT o1-preview на русском86,68%Да
GPT o1-preview на английском100%Да
GPT o1-mini на русском94,49%Нет
GPT o1-mini на английском96,54%Нет

Результаты тестирования

GPT-4 на русском
Оригинальность88,52%
Подозрение, что текст сгенерирован в нейросетиДа
GPT-4 на английском
Оригинальность89,68%
Подозрение, что текст сгенерирован в нейросетиНет
GPT-4o на русском
Оригинальность96,49%
Подозрение, что текст сгенерирован в нейросетиДа
GPT-4o на английском
Оригинальность100%
Подозрение, что текст сгенерирован в нейросетиНет
GPT-4o на русском с пользовательским промптом
Оригинальность92,52%
Подозрение, что текст сгенерирован в нейросетиДа
GPT-4o на английском с пользовательским промптом
Оригинальность98,67%
Подозрение, что текст сгенерирован в нейросетиНет
GPT-4o mini на русском
Оригинальность100%
Подозрение, что текст сгенерирован в нейросетиДа
GPT-4o mini на английском
Оригинальность86,22%
Подозрение, что текст сгенерирован в нейросетиДа
GPT o1-preview на русском
Оригинальность86,68%
Подозрение, что текст сгенерирован в нейросетиДа
GPT o1-preview на английском
Оригинальность100%
Подозрение, что текст сгенерирован в нейросетиДа
GPT o1-mini на русском
Оригинальность94,49%
Подозрение, что текст сгенерирован в нейросетиНет
GPT o1-mini на английском
Оригинальность96,54%
Подозрение, что текст сгенерирован в нейросетиНет

По каждому материалу можно посмотреть отчет, какие именно подозрительные элементы нашел «Антиплагиат». Сервис выделил красным куски текста, которые посчитал сгенерированным — около половины в каждой статье.

Причем иногда это была первая половина, а иногда — вторая. Обнаружить какие-то закономерности не удалось, но текст в любом случае отмечался как подозрительный.

Отчет «Антиплагиата». На самом деле весь текст сгенерирован
Отчет «Антиплагиата». На самом деле весь текст сгенерирован

Можно ли обойти «Антиплагиат»

Преимущество ChatGPT в том, что сервис запоминает контекст диалога и может дальше работать с текстом, сгенерированным ранее. Поэтому мы решили доработать статью с помощью нейросети и посмотреть, как на это отреагирует «Антиплагиат».

Мы взяли части, которые «Антиплагиат» выделил красным, и попросили ChatGPT переписать их заново. Запрос был такой: «Перепиши этот текст так, чтобы он был оригинальным и проходил проверку сервисов, которые определяют, что текст сгенерировала нейросеть. Сделай его более читаемым».

Перегенерация не помогла. «Антиплагиат» снова выделил больше половины текста красным, а оригинальность упала на долю процента.

«Антиплагиат» говорит, что мы сгенерировали текст
«Антиплагиат» говорит, что мы сгенерировали текст

Тогда мы попробовали перегенерировать выделенные «Антиплагиатом» части с нуля, уточнить детали и написать текст так, как его написал бы студент российского вуза на четвертом курсе. Это немного увеличило оригинальность, но текст снова пометили как подозрительный.

Вероятно, если бы мы более вдумчиво подошли к написанию текста и отредактировали его самостоятельно, то смогли бы обойти плагиат. Либо можно с самого начала генерировать текст на английском языке, а затем пропускать его через переводчик.

Даже если задать нейросети роль и дать дополнительные инструкции, как формировать ответ, «Антиплагиат» распознает генерацию
Даже если задать нейросети роль и дать дополнительные инструкции, как формировать ответ, «Антиплагиат» распознает генерацию

Другим пользователям удалось обойти проверку «Антиплагиата». Александр Жадан, который написал диплом с помощью ChatGPT и прославился этим, тоже опробовал новую функцию «Антиплагиата». Он отправил на платную проверку девять страниц своего диплома. Сервис посчитал весь документ подозрительным и отметил, что три страницы сгенерированы в нейросетях. Затем Жадан попросил ChatGPT переписать текст, поменять структуру и сделать его более читаемым. В итоге «Антиплагиат» не нашел сгенерированные фрагменты.

В комментариях к треду Жадана предположили, что сервис проверки на нейросетевые тексты хуже работает с большими объемами. Пользователи считают, что он помечает красным простые предложения, которые многократно повторяются в интернете.

Диплом Александра Жадана. Источник: твиттер-аккаунт Aleksandr Zhadan
Диплом Александра Жадана. Источник: твиттер-аккаунт Aleksandr Zhadan

В «Антиплагиате» обратили внимание на тред Жадана и признали, что проверку сервиса можно обойти. В пресс-службе считают, что Жадану помогло редактирование текста: «Любое вмешательство человека в сгенерированный ИИ текст, конечно же, „очеловечивает“ его, позволяя обойти алгоритм распознавания». Для обхода «Антиплагиата» понадобилось значительное время на работу с чат-ботом, посчитали разработчики системы.

Пресс-служба «Антиплагиата» отметила, что ChatGPT хорошо пишет тексты, и дала советы по работе с нейросетями:

  1. Перепроверять факты. ИИ выдумывает информацию, потому что пытается создать не корректный, а похожий на человеческий текст. Например, часто ChatGPT ссылается на несуществующие произведения.
  2. Генерировать небольшие отрывки. У ИИ есть проблемы с логикой в больших текстах. Часто ChatGPT выдает не мысль, а просто набор фраз, поэтому текст перестает быть осмысленным. Контролировать логику позволяет генерация небольших частей текста.
  3. Грамотно ставить задачу. ChatGPT не напишет диплом с нуля. Чтобы получить качественный текст, нужно четко ставить задачу, проверять текст на достоверность.

Выводы

  1. Если вы полностью сгенерировали научную работу в ChatGPT, скорее всего, «Антиплагиат» отметит текст как подозрительный.
  2. Если вы полностью сгенерировали научную работу в ChatGPT на английском языке, а потом перевели на русский, «Антиплагиат» в большинстве случаев не отметит текст как подозрительный.
  3. Если вы использовали ChatGPT для сбора и упорядочивания информации при написании научной работы, часть редактировали, а часть переписывали вручную, вероятнее всего, «Антиплагиат» не распознает сгенерированный текст.

Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult

Даша ЛейзаренкоПробовали генерировать материалы для учебы в соцсетях? Поделитесь опытом:
  • Брат пацакНейросеть изначально обучена писать тексты, которые написал бы "средний человек" Какого-то НАДЕЖНОГО способа определять текст написаный нейррсетью не может быть в принципе.12
  • Иван ДесятовРади эксперимента отправляли туда курсач написанный человеком, но он все равно отметил текст подозрительным, так что хз.22
  • Александр ЖаданДаша, клевый опыт!1
  • Mihail ZvidrinВы что-то слышали про слепые тесты и критерий фишера? Чтобы реально проверить может ли антиплагиат что-то определить - нужно проводить правильно спроектированный тест. В том числе на статьях заведомо написанных человеком. А так - вы просто получили рандомные данные и сделали рандомные выводы.14
  • 🧺было бы интересно посмотреть, как антиплагиат с этой функцией реагирует на тексты, написанные людьми7
  • Айгуль ХабибуллинаMihail, это же журналистское исследование. Оно может не отвечать критериям научности и пишется скорее для сведения и для размышлений.5
  • ЮшкаАнтиплагиат у меня помечал сгенерированной нейросетью полностью оригинальную работу, просто потому что в прошлом я собирал информацию по нужной теме и ссылки на статьи через нейросети, в итоге отказался от всего этого и написал чисто сам без какой-либо сторонней помощи и подсказок. Может, просто написание у меня роботическое. Без понятия что тут сказать.3
  • MagNetRon_0622 SG🧺, целиком мной написанную статью не приняли, АП ВУЗ считает её сгенерированной. И хрен докашешь, эх7
  • ЕкатеринаПолный бред. По факту антиплагиат может определить и написанный лично мной текст как сгенерированный. И какой смысл писать самому? Проще тупо генерировать, а потом с этим, что нибудь придумывать5
  • Александра СеменоваMihail, тут не стоит задача провести тест на статьях, написанных человеком, потому что цель статьи, в первую очередь, ответить на вопрос: "Чё, реально не прокатит?" И статья с этим отлично справляется. Я сейчас сижу с эссе на абстрактнтую тему про управленческий учёт в цифровой экономике, сравниваю свои формулировки и ГПТшные, и прихожу к выводу, что наверняка и моя самостоятельно написанная работа такую проверку не пройдёт, потому что я бы писала теми же фразами, что и нейросеть -- стиль-то официально-деловой, как ни крути, тут не разгуляешься в каких-то живописных образах и характерных фразочках, а ещё и в объём попасть надо, так что вода водой местами.1
  • Оля ШейкинаЧто это за антиплагиат?0
  • ГазинурКак многократный участник работы Государственной аттестационной комиссии и однажды даже её председатель могу Вам смело сказать, что утверждение "«Антиплагиат» отметит текст как подозрительный" - не что иное как полный BullSHit. Комиссия рассматривает в отчете антиплагиата лишь один параметр - ОРИГИНАЛЬНОСТЬ. Любые "подозрения" не рассматриваются. Кроме того, если комиссия пришла к выводу, что работа списана или её написали другие люди на заказ в любом случае, она может поставить неудовлетворительную оценку даже при оригинальности 100 процентов. Обратные ситуация тем более не исключена, низкая оригинальность работы не обязательно говорит о плагиате - автор мог неправильно оформить ссылки, или же в большой предшествующей его теме работе сделать очередной маленький кусочек, например, решить систему дифференциальных уравнений с новыми граничными условиями, в этом случае объёмная доля оригинальности может достигать всего-то 5-8 процентов, но это будет оригинальная работа и даже ценная в научном плане. На мой взгляд Антиплагиат делали люди без реального опыта академической работы, с страстью к графомании и разведению воды. Результаты анализа антиплагиата, конечно, стоит рассматривать, но лишь как дополнительный аргумент в разрешении неоднозначных сложных запутанных ситуаций. Хотелось бы мне спросить у авторов антиплагиата как добиться хотя бы 50 процентной оригинальности в работе, в которой математические выкладки на пол страницы строго доказывают, что уравнения движения вещества под действием гравитационного поля в псевдоевклидовом пространстве-времени с метрическим тензором, могут быть тождественно представлены как уравнения движения вещества в некотором эффективном римановом пространстве-времени с метрическим тензор. Примеров подобных настоящих исследований, результаты которых умещаются на одной странице широко известны (и не только по сухой математике): [1] Lander, L. J., & Parkin, T. R. (1966) Bulletin of the American Mathematical Society, 72(6), 1079. [2] Goldberg A. F. G., Roth K., Chemjobber C. J. A comprehensive Overview Chemical-free Consumer Products //Chemie in Unserer Zeit. – 2016. – Т. 50. – №. 2. – С. 144-145. [3] Berry, M. V., Brunner, N., Popescu, S., & Shukla, P. (2011) Journal of Physics A: Mathematical and Theoretical, 44, 492001. Работа на антиплагиат развивает лишь графоманию и формальный подход к делу, поэтому эта система вполне неплохо работает в сфере так называемых гуманитарных наук и наносить лишь вред настоящим наукам - математике, физике, химии и т.д. Антиплагиат - отличная модель бюрократического подхода к делу, когда надо выдумать какой-то критерий оценки эффективности (KPI) и дальше требовать-следить за его выполнением. В конечном счете мы получаем такую картину, когда неориентированная на настоящую работу группа студентов просто начинает любыми способами подгонять свои опусы под преодоление этого параметра, а многие талантливые ребята, написавшие настоящий диплом с высокой научной ценностью, сталкиваются с проблемой прохождения антиплагиата, по той причине, что не стали разбавлять свои работы водой.5
  • ГазинурБрат, да, но олухам из антиплагиата надо как—то спасать свой бизнес5
  • ГазинурЕкатерина, да, обычно сектанты лженаук обычно остро реагируют на честные оценки.0
  • Екатерина КаменеваГазинур, обычно обычно обычно обычно Я бы посмотрела на вашу жизнь без наук о языке)0
  • ГазинурЕкатерина, лучше не надо, захотите замуж0
  • Lupa_pupaСкажите, пожалуйста, как включить эту опцию проверки на "сгенерированный текст"?? Оплатила 3 проверки, загрузила диплом, показал оригинальность, но никаких плашек с восклицательным знаком и надписи "подозрительный текст" не вижу(((0
  • Lupa_pupaLupa_pupa, я разобралась. Антиплагиат действительно абсолютно не обнаружил в моем дипломе генерацию. Вообще 0. Хотя весь диплом сгенерирован🤣0
  • Re TardLupa_pupa, каким ии пользовались? и как/какие запросы писали? как с вами связаться0
  • Карина МишинаПроверяла детектором свою статью, опубликованную в 2022 году (т.е. точно до появления всех этих моделей) - 85% ИИ. Вроде как детекторы как раз заточены под большое количество терминов и строгий язык, и что теперь, писать "йоу-йоу, вот тут табличка - это мы намерили какие-то данные, пыщ!"))2
  • Lupa_pupaRe, chadgpt пользовалась. Покупала подписку1