У меня два сайта — они регулярно наполняются новыми публикациями, которые нужно проверять на уникальность.

У меня под рукой всегда несколько бесплатных сервисов для проверки текста: у каждого есть свои особенности, поэтому одного часто бывает недостаточно. В этой статье я поделюсь опытом их использования и покажу на примере, как отличается оценка текстов разными алгоритмами.

Ключевые понятия

Чтобы выбрать подходящий сервис проверки текста, нужно научиться разговаривать с ними на одном языке. Расскажу об основных терминах, которые помогают разобраться в особенностях работы алгоритмов.

Уникальность указывает на пересечения текста с материалами других сайтов: с помощью этой характеристики можно узнать, какой объем текста больше нигде не встречается в интернете.

Важная деталь: при каждой новой проверке процент уникальности одного и того же текста может разниться. Разработчики объясняют это статистической погрешностью и с разницей в ответах поисковых систем на одни и те же запросы.

Шинглование — алгоритм проверки уникальности. Весь текст делится на равные шинглы — фрагменты от 2 до 7 слов, — и сервис сравнивает их со всеми проиндексированными сайтами в интернете. На некоторых сайтах можно настроить длину шингла, от которой и зависит суммарный процент уникальности всего текста.

Рерайт — искусственно переписанный текст: например, вместо «3 октября правительство изменило противопожарные правила» можно написать «3 октября 2019 года на государственном уровне были изменены противопожарные правила, вызвавшие большое волнение в обществе».

Рерайт не является ценным: поисковики умеют его распознавать, а читатели замечают подвох. Некоторые сервисы умеют не только находить точно такие же тексты в интернете, но и определять рерайт.

SEO-параметры. Удобно, если сервис оценивает не только уникальность, но и технические параметры текста. Например, определяет процент «воды» или «тошноты» — то есть находит слова, которые не несут никакой смысловой нагрузки или слишком часто повторяются.

Домены-исключения — сайты, совпадения с которыми учитываться не будут: некоторые сервисы предлагают настроить такую опцию.

Массовая проверка — возможность одновременно проверять несколько разных текстов: это экономит время, если работаешь с большим количеством авторов.

Вот сервисы, которыми я обычно пользуюсь: расскажу, чем они полезны и как могут дополнить работу друг друга.

Advego Plagiatus

Платформы: десктоп-версия, браузер
Максимальная длина текста при бесплатной проверке: в десктопной версии — без ограничений, в браузере — 25 000 символов
Платные тарифы: после превышения ограничения — 1 Р за 1667 символов

По моему опыту, это один из лучших сервисов проверки уникальности: Advego Plagiatus находит даже спрятанный или хорошо переписанный рерайт. А вот проверять им слишком короткие тексты не рекомендую: алгоритм ошибочно учитывает штампы и устойчивые выражения и обязательно найдет множество источников заимствования.

В браузерной версии сервис предлагает меньше возможностей, чем в десктопной. Если хочется вручную настраивать шинглы и проверять большие тексты, придется скачивать программу: онлайн-версия позволяет проверить максимум 95 000 символов за раз. В десктоп-клиенте нет ограничений по объему проверяемого текста, но за одну проверку вам придется расшифровать несколько капч.

Скорость проверки текста одинаковая: сервис определит процент уникальности любого текста за несколько минут.

Text.ru

Платформы: браузер, телеграм-бот
Максимальная длина текста при бесплатной проверке: 15 000 символов
Платные тарифы: от 15 Р в день — цены различаются в зависимости от срока подписки и объема текста, который можно проверить в течение дня

Сервис проверяет тексты с помощью оригинального алгоритма: он работает без шинглования, поэтому хорошо определяет рерайт любой глубины и знает основные приемы, с помощью которых авторы обычно обманывают проверку на антиплагиат. Мусорными словами, перестановкой абзацев, изменением падежей, склонений и форм слов его не провести.

Еще сервис умеет оценивать SEO-параметры текста: например, может найти поисковые ключи и проверить, не слишком ли их много, или обнаружить бессмысленные конструкции, которыми автор искусственно увеличил объем материала. Текст можно отредактировать прямо в окне проверки — в других сервисах такое встречается не всегда.

Выбрать домены-исключения и провести массовую проверку в этой программе не получится. Еще один недостаток — очереди: с утра и днем сервис загружен и ждать оценки приходится долго — 7—10 минут.

Content Watch

Платформы: браузер
Максимальная длина текста при бесплатной проверке: 10 000 символов, максимум — раз в день
Платные тарифы: от 140 Р в месяц, за деньги можно увеличить количество знаков и проверок

Еще один сервис с собственными алгоритмами проверки. Инструмент распознает даже качественный рерайт и отличает цитаты от плагиата — это полезно при проверке рефератов, дипломов, диссертаций и докладов. В отличие от других сервисов, Content Watch проверяет не только текстовые фрагменты, но и сайты: одну страницу, все страницы или несколько нужных.

Content Watch позволяет добавить домены-исключения и провести массовую проверку, а вот с SEO-параметрами не работает.

Там, где Advego показывает уникальность 85%, Content Watch может выдать даже 95%. Это не принципиально, но знать о таких различиях важно, если вы проверяете чужие тексты: всегда уточняйте, каким сервисом оценивал свою работу автор.

eTXT

Платформы: десктоп-версия, браузер
Максимальная длина текста при бесплатной проверке: 3000 символов до регистрации, 5000 — после
Платные тарифы: есть отдельная онлайн-проверка с ценой 1,5 Р за 1000 символов, максимум — 15 000 символов в одном тексте

eTXT — универсальный сервис: в нем можно проверить на уникальность не только текст, но и изображение.

Перед началом проверки нужно выбрать способ анализа: обнаружение копий или поиск дословных совпадений. В первом случае сервис будет искать точные совпадения с проверяемым текстом, а во втором — рерайт. По моим наблюдениям, eTXT отлично находит источники рерайта, но ошибается с показателями уникальности: например, у полностью заимствованного текста может показать схожесть около 85—90% вместо реальных 100%.

В десктопном приложении можно настроить параметры проверки: размер выборки, число слов в шингле и суммарное количество выборок. Скорость проверки зависит от длины текста: небольшие сервис обрабатывает мгновенно, а проверка объемных может занять несколько минут.

Массовой проверки, а также настройки SEO-параметров и доменов-исключений в eTXT нет.

Pr-Cy

Платформы: браузер
Максимальная длина текста при бесплатной проверке: 5000 символов до регистрации, 10 000 — после, в день можно проверить не больше 10 текстов
Платные тарифы: от 990 Р в месяц, за деньги можно увеличить количество проверок и провести SEO-анализ

Я люблю Pr-Cy за скорость: сервис проверяет текст быстрее аналогичных программ. Алгоритм умеет отличать цитаты от плагиата, но клише, шаблоны и устойчивые выражения отмечает как неоригинальные: добиться уникальности 100% на этом ресурсе практически невозможно.

Также сервис позволяет настроить SEO-параметры и домены-исключения, а вот массовой проверки в нем нет.

Тест первый: как хорошо и быстро сервисы найдут прямые заимствования

Для примера я проверил уже проиндексированный поисковыми системами текст, размещенный на сайте хостинга Beget. Вот его фрагмент:

Redis (REmote DIctionary Server) — сетевое журналируемое хранилище данных типа «ключ» — «значение» с открытым исходным кодом. По сути Redis представляет собой базу данных (как MySQL), только упрощенную и более быструю за счет отсутствия связи между данными, а также простому механизму работы с данными (подход noSql).

Сначала протестируем скорость проверки, затем — качество обнаружения чужого текста.

Первым с проверкой, ожидаемо, справился Pr-Cy. Он показал уникальность 10%, что даже слишком много для полной «копипасты».

Вторым по скорости был eTXT, и он показал уникальность 2%:

Advego Plagiatus пришел к финишу третьим и ожидаемо показал максимально точный результат — 0% уникальности:

Content Watch был четвертым и показал уникальность 14%:

Дольше всех, как обычно, мучился text.ru: я был 380-м в очереди на проверку. Она завершилась через 7 минут. Долго, зато точно — уникальность 0%:

Хотя Pr-Cy справился быстрее всех, этот инструмент подойдет только для случаев, когда нужно бегло оценить уникальность текста. А если важно как можно точнее определить все заимствования, рекомендую Advego Plagiatus и Text.ru: они прошли эту проверку лучше других сервисов.

Тест второй: как хорошо сервисы справятся с рерайтом

Чтобы определить рерайт, сервисы пользуются другими алгоритмами, чем при поиске точных заимствований. Проверим качество их работы на примере небольшого фрагмента текста о картине «Портрет Клариссы Строцци». Вот оригинал из «Википедии»:

«Портрет Клариссы Строцци» (итал. Ritratto di Clarissa Strozzi) — картина итальянского живописца Тициана периода Высокого Возрождения. Создана около 1542 года по заказу отца Клариссы, Роберто Строцци. Художественные особенности картины выделяют ее из общего ряда детских портретов середины XVI века. Ей присущи черты «официального портрета» (портрет в полный рост, богатое убранство комнаты, пейзаж за окном, классический барельеф, комнатная собачка), и вместе с тем изображения ребенка, именно как ребенка, а не как миниатюрного взрослого, что отражает наметившуюся в то время смену парадигмы идеи детства. Картина оказала значительное влияние на способы изображения детей в эпоху барокко. В XVIII веке с нее была сделана гравюра.

А вот что получилось у одного из авторов с биржи копирайтинга, который берет 30 Р за 1000 знаков:

«Портрет Клариссы Строцци» — это известная работа Тициана. На картине изображена девочка в белом платье с собачкой. Несмотря на серьезное убранство помещениях, ребенок здесь уже не преподносится как «взрослый» человек. Скорее это связано с идеями детства как неизбежного этапа жизни, особенно ярко появившимися именно в период Высокого Возрождения. Стоит отметить, что семья Строцци, на момент создания картины, была одной из самых известных во всей Флоренции и пользовалась большой влиятельностью в самых широких кругах населения.

Давайте смотреть.

Advego Plagiatus — 100% / 41%. Второй показатель демонстрирует «количество оригинального текста в процентах от общего объема текста»:

Content Watch — 78%:

Text.ru — 100%. Иначе говоря, сервис не нашел ни намека на рерайт — удивительно:

eTXT — 100%:

Pr-Cy — 100%:

Advego Plagiatus и Content Watch смогли распознать даже качественный рерайт: а вот другие сервисы даже не заподозрили, что проверяемый текст похож на какой-то другой.

Бонус: каких сервисов стоит опасаться

Кроме платформ, которые я перечислил, есть немало платных. Я не проверял тексты на них, но, судя по отзывам на независимых площадках вроде «Отзовика», их качество оставляет желать лучшего.

Вот несколько ситуаций, в которых нужно насторожиться:

  1. Сервис не предоставляет пробный период и сразу требует оплату.
  2. Сервис требует доплату за то, что можно получить бесплатно. Например, на antiplagius.ru есть платная возможность прогнать текст через несколько других «антиплагиатов». Но зачем доплачивать за проверку уникальности через алгоритмы Text.ru, если вы можете сделать это самостоятельно и бесплатно?
  3. Сайт предлагает «повысить уникальность текста за 5 минут» или даже мгновенно. По моему опыту, скорее всего, это будут мошенники.
  4. О сервисе отсутствуют отзывы. У хорошего антиплагиата всегда много оценок на «отзовиках».

Сравним сервисы между собой

Сервис Скорость проверки Прошел проверку рерайтом SEO-параметры Массовая проверка Домены-исключения
Advego Plagiatus медленно
Text.ru очень медленно
Content Watch быстро
eTXT короткие тексты быстро, длинные медленно
Pr-Cy очень быстро
Advego Plagiatus
Скорость проверки
медленно
Прошел проверку рерайтом
SEO-параметры
Массовая проверка
Домены-исключения
Text.ru
Скорость проверки
очень медленно
Прошел проверку рерайтом
SEO-параметры
Массовая проверка
Домены-исключения
Content Watch
Скорость проверки
быстро
Прошел проверку рерайтом
SEO-параметры
Массовая проверка
Домены-исключения
eTXT
Скорость проверки
короткие тексты быстро, длинные медленно
Прошел проверку рерайтом
SEO-параметры
Массовая проверка
Домены-исключения
Pr-Cy
Скорость проверки
очень быстро
Прошел проверку рерайтом
SEO-параметры
Массовая проверка
Домены-исключения