В начале мая сервис обнаружения текстовых заимствований «Антиплагиат» запустил функцию распознавания текстов, сгенерированных в нейросетях.
По задумке, сервис должен заметить, что части текста написали в одной из версий ChatGPT, и пометить работу как подозрительную. Новая проверка появилась накануне сессий, выпускных экзаменов и сдачи дипломов в вузах. А в России, несмотря на ограничения, ChatGPT уже достаточно активно применяют в учебном процессе.
Мы протестировали обновленный «Антиплагиат» на сгенерированных текстах и выяснили, что он действительно работает. Но обойти систему все еще можно.
Как «Антиплагиат» распознает сгенерированный текст
Функция выявления ИИ-текстов доступна только в платной версии. Одна проверка стоит 472 Р — если покупать сразу несколько, будет дешевле. Детектор обучен и протестирован на большом наборе данных, поэтому риск ложного срабатывания минимален, уверяют в «Антиплагиате».
В компании отметили, что сами разработали алгоритм «на основе многолетних исследований» по обработке естественного языка. «Несмотря на все успехи ChatGPT или Jasper, их тексты все еще отличаются от написанных человеком», — заявил исполнительный директор компании Юрий Чехович.
Система анализирует текст на наличие фрагментов, созданных с помощью языковых моделей GPT-2, GPT-3 и ChatGPT — версий GPT-3.5 и GPT-4. Если система находит такой фрагмент, она выделяет его красным цветом, а документ маркируют как подозрительный.
Подобные сервисы существовали и до обновления «Антиплагиата». В основном они работают по одному и тому же принципу: смотрят на «предсказуемость» каждого следующего слова в тексте. Например, если дополнять приложение «Каждый день он ходит на…», то очевидные ответы — «работу» или «учебу». Нейросети, особенно устаревшие, составляют именно такие предсказуемые цепочки, чтобы не потерять связность. Людям тоже свойственна шаблонность, но не на протяжении всего текста. Такую последовательность и вычисляют сервисы, но чем сложнее нейросеть — тем сложнее и разнообразнее генерация текста.
Как понять, что текст сгенерирован нейросетью
Пишет слишком конкретно. Нейросеть предсказывает следующее слово в предложении и таким образом генерирует текст. Из-за этого алгоритмы плохо рассуждают на абстрактные темы.
Генерирует галлюцинации. Нейросеть может придумывать вымышленные факты, если у нее недостаточно данных о реальном мире. Алгоритмы не могут усомниться в себе. Они признают ошибки, только если прямо на них указать.
Пишет неперсонализированный текст. ChatGPT имитирует опыт миллионов людей, поэтому глубины и экспертности у нее мало. Написать по-настоящему вдумчивый текст может только человек с богатым личным опытом.
Как мы проверяли тексты в «Антиплагиате»
Где мы генерировали тексты. Мы попросили нейросеть создать научную статью «Анализ эффективности деятельности подразделения предприятия» — на популярную экономическую тему, по которой много источников и студенческих работ. Для чистоты эксперимента сгенерированный текст мы вручную не редактировали. Все наполнение статьи — план, разделы и источники — придумала нейросеть.
Всего мы сгенерировали шесть текстов, по два в GPT-3, GPT-3.5 и в GPT-4:
- GPT-3 — уже устаревшая модель от OpenAI, современные сервисы проверок обучены преимущественно на ней или даже прошлой версии, GPT-2.
- GPT-3.5 — базовая модель в основе ChatGPT, актуальная и бесплатная для пользователей чат-бота.
- GPT-4 — новая и наиболее мощная, но платная версия, доступная только по премиум-подписке.
Для каждой модели один текст мы сгенерировали на русском языке, а второй — на английском. Англоязычные тексты потом перевели через нейросетевой переводчик DeepL без дополнительной редактуры. Так мы сразу проверили популярный совет пользоваться связкой «англоязычный ChatGPT — переводчик» для обхода «Антиплагиата».
Отрывок из текста, сгенерированного GPT-3 на русском языке
В условиях современной экономики эффективность деятельности предприятия является одним из ключевых факторов успеха. Особенно важным является анализ эффективности деятельности подразделения предприятия, так как именно на этом уровне принимаются решения, которые в конечном итоге влияют на общую эффективность предприятия.
Целью данной научной статьи является анализ эффективности деятельности подразделения предприятия с целью выявления факторов, влияющих на ее уровень. Для достижения данной цели были поставлены следующие задачи: определить понятие эффективности деятельности, рассмотреть методы анализа ее уровня, а также выявить факторы, которые оказывают наибольшее влияние на эффективность деятельности подразделения.
В первой части статьи будет рассмотрено понятие эффективности деятельности, методы ее анализа и факторы, влияющие на ее уровень. Во второй части будет описана методика исследования, включающая описание выборки, методов сбора и анализа данных, а также инструментов, используемых для анализа данных. В третьей части будет проведен анализ результатов исследования, включающий описание полученных данных, анализ эффективности деятельности подразделения и идентификацию факторов, влияющих на ее уровень. В четвертой части будут сформулированы выводы и рекомендации по улучшению эффективности деятельности подразделения. В заключении будут подведены итоги исследования, а также определены перспективы дальнейших исследований в данной области.
Отрывок из текста, сгенерированного GPT-3.5 на русском языке
Введение
В современной бизнес-среде, где конкуренция становится все более интенсивной, эффективность деятельности подразделений предприятия играет решающую роль в достижении успеха и устойчивого развития. Анализ эффективности подразделения является неотъемлемой частью управления предприятием и позволяет выявить сильные и слабые стороны в работе организации. Основываясь на этом анализе, можно разработать и внедрить эффективные стратегии и меры для оптимизации деятельности подразделения и обеспечения его успешного функционирования.
Целью данной научной статьи является проведение анализа эффективности деятельности подразделения предприятия. В ходе исследования будет осуществлен комплексный подход, охватывающий различные аспекты эффективности, такие как финансовая эффективность, операционная эффективность, качество работы и уровень удовлетворенности клиентов. Анализ этих факторов позволит получить глубокое понимание о текущем состоянии и результативности деятельности подразделения.
Основная значимость данного исследования состоит в том, что анализ эффективности деятельности подразделения предприятия способствует определению ключевых аспектов, влияющих на его успех, и позволяет разработать рациональные стратегии улучшения. Использование надежных методов и инструментов анализа позволит предприятиям повысить эффективность своей работы, обеспечить рост и развитие, а также повысить свою конкурентоспособность на рынке.
В ходе нашего исследования мы будем полагаться на актуальные теоретические модели и фреймворки, разработанные в области анализа эффективности деятельности подразделений предприятий. Кроме того, будет проведен обзор существующей литературы и предыдущих исследований в данной области, чтобы получить наиболее полную картину о проблеме и накопленном опыте.
Ожидается, что результаты данного исследования будут полезны для руководителей и менеджеров, ответственных за управление подразделениями предприятий, а также для исследователей и специалистов в области управления, которые заинтересованы в повышении эффективности деятельности подразделений предприятия. Анализ и предлагаемые рекомендации помогут оптимизировать работу подразделений, улучшить финансовые показатели, увеличить качество продукции или услуг, а также повысить уровень удовлетворенности клиентов.
Следующие разделы статьи предоставят обзор литературы, описание выбранной методологии и подробный анализ эффективности деятельности подразделения предприятия. Затем будут представлены факторы, влияющие на эффективность, и рекомендации для улучшения работы подразделения. Заключительная часть статьи подведет итоги исследования, сделает выводы и предложит дальнейшие направления исследования в данной области.
Отрывок из текста, сгенерированного GPT-4 на русском языке
Введение
В современном быстро меняющемся бизнес-окружении, постоянный анализ и повышение эффективности деятельности является ключевым фактором успешности любого предприятия. Эффективность деятельности отдельных подразделений часто служит индикатором общего здоровья и потенциала организации, а также является мерилом успеха принимаемых управленческих решений. Отсюда возникает необходимость в глубоком и всестороннем анализе эффективности деятельности подразделений предприятия.
Целью данного исследования является разработка и применение комплексной методологии для анализа эффективности деятельности подразделения предприятия, а также выработка рекомендаций для повышения этой эффективности. Для достижения этой цели мы поставили следующие задачи: определение критериев и показателей эффективности, анализ текущего состояния подразделения, оценка влияния различных факторов на его деятельность, а также разработка предложений по улучшению.
Данная тема актуальна, поскольку несмотря на многочисленные исследования в данной области, проблема повышения эффективности деятельности остается открытой. Кроме того, в условиях постоянного развития технологий и изменения бизнес-процессов, требуется периодический пересмотр подходов и методов анализа.
Таким образом, результаты данного исследования будут интересны как теоретикам, занимающимся проблемами управления и эффективности, так и практикам, ищущим способы оптимизации работы своих подразделений и всего предприятия в целом.
Что у нас вышло. Шесть сгенерированных текстов мы отправили на платную проверку «Антиплагиата». Оригинальность у всех текстов оказалась достаточно высокая: более 85%. В среднем в российских вузах от выпускных квалификационных работ требуется уникальность на уровне 80—90%, а для рефератов и курсовых работ — и того меньше.
Четыре текста из шести не прошли проверку — «Антиплагиат» определил работу нейросети.
У них появилась отметка «Подозрительные». Причем система распознала и старую модель GPT-3 — она справилась хуже всех, — и актуальные GPT-3.5 и GPT-4.
Полностью прошли проверку «Антиплагиата» только те тексты, которые мы изначально сгенерировали на английском языке, а потом пропустили через переводчик.
Результаты моего тестирования
Оригинальность | Подозрение на то, что текст сгенерирован в нейросети | |
---|---|---|
GPT-3 на русском | 87,44% | Да |
GPT-3 на английском | 87,44% | Да |
GPT-3.5 на русском | 90,19% | Да |
GPT-3.5 на английском | 95,09% | Нет |
GPT-4 на русском | 88,52% | Да |
GPT-4 на английском | 89,68% | Нет |
По каждому материалу можно посмотреть отчет, какие именно подозрительные элементы нашел «Антиплагиат». Сервис выделил красным куски текста, которые посчитал сгенерированным — около половины в каждой статье.
В основном система выделяла введение и заключение. Вероятно, потому что они лучше всего подходят под выявление ИИ — довольно шаблонный текст без особой конкретики и размышлений.
Можно ли обойти «Антиплагиат»
Преимущество ChatGPT в том, что сервис запоминает контекст диалога и может дальше работать с текстом, сгенерированным ранее. Поэтому мы решили доработать статью с помощью нейросети и посмотреть, как на это отреагирует «Антиплагиат». За основу взяли текст, который сгенерировала GPT-3.5 на русском языке.
Мы взяли части, которые «Антиплагиат» выделил красным, и попросили ChatGPT переписать их заново. Запрос был такой: «Перепиши этот текст так, чтобы он был оригинальным и проходил проверку сервисов, которые определяют, что текст сгенерировала нейросеть. Сделай его более читаемым».
Перегенерация не помогла. «Антиплагиат» снова выделил больше половины текста красным, а оригинальность упала на долю процента.
Тогда мы попробовали перегенерировать выделенные «Антиплагиатом» части с нуля, уточнить детали и написать текст так, как его бы написал студент российского вуза на четвертом курсе. Это немного увеличило оригинальность, но текст снова пометили как подозрительный. «Антиплагиат» все еще «ругался» на введение и заключение.
Вероятно, если бы мы более вдумчиво подошли к написанию текста и отредактировали его самостоятельно, то смогли бы обойти плагиат. Либо можно с самого начала генерировать текст на английском языке, а затем пропускать его через переводчик.
Другим пользователям удалось обойти проверку «Антиплагиата». Александр Жадан, который написал диплом с помощью ChatGPT и прославился этим, тоже опробовал новую функцию «Антиплагиата». Он отправил на платную проверку девять страниц своего диплома. Сервис посчитал весь документ подозрительным и отметил, что три страницы сгенерированы в нейросетях. Затем Жадан попросил ChatGPT переписать текст, поменять структуру и сделать его более читаемым. В итоге «Антиплагиат» не нашел сгенерированные фрагменты.
В комментариях к треду Жадана предположили, что сервис проверки на нейросетевые тексты хуже работает с большими объемами. Пользователи считают, что он помечает красным простые предложения, которые многократно повторяются в интернете.
В «Антиплагиате» обратили внимание на тред Жадана и признали, что проверку сервиса можно обойти. В пресс-службе считают, что Жадану помогло редактирование текста: «Любое вмешательство человека в сгенерированный ИИ текст, конечно же, „очеловечивает“ его, позволяя обойти алгоритм распознавания». Для обхода «Антиплагиата» понадобилось значительное время на работу с чат-ботом, посчитали разработчики системы.
Пресс-служба «Антиплагиата» отметила, что ChatGPT хорошо пишет тексты, и дала советы по работе с нейросетями:
- Перепроверять факты. ИИ выдумывает информацию, потому что пытается создать не корректный, а похожий на человеческий текст. Например, часто ChatGPT ссылается на несуществующие произведения.
- Генерировать небольшие отрывки. У ИИ есть проблемы с логикой в больших текстах. Часто ChatGPT выдает не мысль, а просто набор фраз, поэтому текст перестает быть осмысленным. Контролировать логику позволяет генерация небольших частей текста.
- Грамотно ставить задачу. ChatGPT не напишет диплом с нуля. Чтобы получить качественный текст, нужно четко ставить задачу, проверять текст на достоверность.
Выводы
- Если вы полностью генерировали научную работу в ChatGPT, то, скорее всего, «Антиплагиат» отметит текст как подозрительный.
- Если вы полностью генерировали научную работу в ChatGPT на английском языке, а потом перевели на русский язык, «Антиплагиат» не отметит текст как подозрительный.
- Если вы использовали ChatGPT для сбора и упорядочивания информации при написании научной работы, часть редактировали, а часть переписывали вручную, то, вероятнее всего, «Антиплагиат» не распознает сгенерированный текст.
Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult
Ради эксперимента отправляли туда курсач написанный человеком, но он все равно отметил текст подозрительным, так что хз.
Вы что-то слышали про слепые тесты и критерий фишера?
Чтобы реально проверить может ли антиплагиат что-то определить - нужно проводить правильно спроектированный тест.
В том числе на статьях заведомо написанных человеком.
А так - вы просто получили рандомные данные и сделали рандомные выводы.
Mihail, это же журналистское исследование. Оно может не отвечать критериям научности и пишется скорее для сведения и для размышлений.
Нейросеть изначально обучена писать тексты, которые написал бы "средний человек"
Какого-то НАДЕЖНОГО способа определять текст написаный нейррсетью не может быть в принципе.
было бы интересно посмотреть, как антиплагиат с этой функцией реагирует на тексты, написанные людьми
Даша, клевый опыт!