Что может произойти если поисковик Google или Яндекс определит, что ваш текст
"позаимствован" с другого сайта?
Ваш ресурс может не попасть в результаты поиска.
Как же поисковые машины определяют схожесть текстов?
Существует "алгоритм шинглов" (shingles-Шинглы), позволяющий простой проверкой
двух текстов убедиться, что между ними есть связь.
Как работает "алгоритм шингл"?
Разбиение текстов на слова, а затем сравнение полученных матриц. Так что, становиться
не важно если вы просто переставили слова или предложения (если деление идет на 1 слово).
Разбиение текста может быть как по одному слову, так и по несколько, т.e. шингла из нескольких слов.
Данный сервис позволяет сравнить два текста на уникальность после изменений.
Для проверки вам необходим оригинал текста и переделанная (реврайт) копия.
Версия: 1.0
PHP код алгоритм шинглов (rar)
Новости
22.08.2009 v1.4
- Добавлена кнопка "Открыть на весь экран"
25.07.2009 v1.3
- Добавлена версия на английском
Перед сравнением текст проходит минимальные чистки и изменения:
- убираются html вставки такие как <strong>
- символы преобразуются в нижний регистр
- убираются запятые, точки, апострофы, знаки переноса строки, двойные пробелы, слешы.
- убираются "стоп-слова"