Шингл – это отрезок текста длиною 3-8 слов, на которые делится текст, проверяемый на уникальность.
Чем больше длина шинглов, тем больше вероятность погрешности при проверке, поэтому чаще всего используется шингл длиною в 4-5 слов. Эти отрезки обязательно берутся внахлест, т.е., последнее слово одного шингла будет первым словом следующего.
При проверке текста сразу осуществляется его канонизация. Она заключается в том, что из текста удаляются все слова, которые не несут смысла. Это служебные части речи, вставные слова. Также убираются знаки препинания и другие возможные символы. Кстати, некоторые системы работают и без удаления из текста стоп-слов.
После канонизации текст разбивается на шинглы. Затем сравниваются шинглы разных текстов. Это позволяет определить, не является ли один из текстов дубликатом другого. Обмануть поисковую систему, пользующуюся методом шинглов, практически невозможно. Поисковые системы без труда находят похожие документы, сравнивают их, фиксируют количество совпадений шинглов и подсчитывают уникальность.