Language: English

Сравнение текстов на схожесть

Зачем изобретать велосипед?
Поискал нужный текст или статью и скопировал себе на сайт. Но не все так просто. Думаю вы слышали о том, что лучше делать уникальный контент сайта.

Что может произойти если поисковик Google или Яндекс определит, что ваш текст "позаимствован" с другого сайта?
Ваш ресурс может не попасть в результаты поиска.

Как же поисковые машины определяют схожесть текстов?
Существует "алгоритм шинглов" (shingles-Шинглы), позволяющий простой проверкой двух текстов убедиться, что между ними есть связь.

Как работает "алгоритм шингл"?
Разбиение текстов на слова, а затем сравнение полученных матриц. Так что, становиться не важно если вы просто переставили слова или предложения (если деление идет на 1 слово). Разбиение текста может быть как по одному слову, так и по несколько, т.e. шингла из нескольких слов.

Данный сервис позволяет сравнить два текста на уникальность после изменений.

Для проверки вам необходим оригинал текста и переделанная (реврайт) копия.

Версия: 1.0
PHP код алгоритм шинглов (rar)

Новости
22.08.2009 v1.4
- Добавлена кнопка "Открыть на весь экран"

25.07.2009 v1.3
- Добавлена версия на английском

Перед сравнением текст проходит минимальные чистки и изменения:
- убираются html вставки такие как <strong>
- символы преобразуются в нижний регистр
- убираются запятые, точки, апострофы, знаки переноса строки, двойные пробелы, слешы.
- убираются "стоп-слова"

Оригинальный текст:


Переделанная (реврайт) копия: