Что такое Стемминг?

Что такое Стемминг?

Что такое Стемминг?В рамках данной заметки, рассмотрим что такое стемминг, зачем он нужен, где применяется и прочие аспекты  Начну с определения.

Стемминг (стемматизация, stemming) - это поиск основы слова для заданного исходного слова. Например, "лесной - лес", "слоновый - слон". При этом важно отметить, что основа слова не обязательно совпадает с морфологическим корнем слова.

Для чего нужен стемминг? Языковую речь может понять человек, но компьютерам в этом смысле достаточно сложно. Многие алгоритмы ориентируются по принципу "пересечения смысла с учетом контекста". Иными словами, им не столько важны окончания, префиксы и прочее, сколько основы слов и их порядок. Например, "вкусный салат" и "вкусненький салатец". По сути, это "вкусно" и "салат".

Примечание: Небольшое отступление для понимания. Хоть для человека уловима разница в словосочетаниях, в плане приготовления блюда результат обычно одинаковый.

Так же вопрос стемминга касается вообще поиска. Например, одна из частых проблем поиска обычных сайтов - это окончания и словоформы. Грубо говоря, если в тексте употребляется слово "компьютер", а в строку поиска вы ввели "компьютеры", то контент не будет найден из-за буквы "ы".

Если же говорить о поисковых системах, таких как Яндекс и Google, то стемминг это неотъемлемая часть при ранжировании сайтов по поисковым запросам. В упрощенном виде это выглядит следующим образом. Тексты сайтов подвергаются стеммингу, а затем анализируются (например, по тошноте текста). Так создается некая сжатая характеристика контента. Когда же пользователь вводит поисковый запрос, то вначале его фраза так же подвергается стеммингу, а затем происходит поиск соответствия "сжатых запросов" с "сжатым контентом" сайтов.

Продолжая пример с салатом, кулинарные рецепты в сайтах сжимаются до основ вида "салат" и так же поисковые запросы пользователей сжимаются до слов вида "салат". Это позволяет быстро находить соответствие и отображать для слова "салатец" рецепты, где употребляется слово "салат", но не используется слово "салатец".

Примечание: Стоит знать, что в нынешнее время поисковые системы более сложны, поэтому к примерам стоит относиться как к базовым. С тем же салатом, в Яндексе для двух этих фраз, будет разных serp.

Какие существуют методы стемминга? Вообще, их достаточно много: статистические (анализ N-грамм, стемминг на основе корпуса и т.п.), стохастические (вероятностные), усечения окончаний (суффиксов и т.п.), прямой поиск (грубо говоря, большая база слов с их соответствием основам) и так далее. При этом нередко они применяются в комплексе.

Как необходимо учитывать стемминг в сео? Стоит понимать и учитывать, что каждый язык подразумевает свои особенности. Поэтому для его анализа применяются разные алгоритмы стемминга. При этом не сложно догадаться, что эффективность одного и того же алгоритма может быть разной для каждого языка. Утрируя, если в языке нет суффиксов, то их отсечение бессмысленно.

Это означает, что в сео продвижении важно учитывать язык текста. Так, например, русский язык достаточно сложный, поэтому, разбавляя ключи, необходимо осуществлять это таким, образом, чтобы корректируемые слова не получились столь сложными, что при стемминге они будут отнесены к иным основам. Продолжая пример с салатом, серп для "наивкуснейший салатецы" будет существенно отличаться от предыдущих двух вариантов.

Понравилась заметка? Тогда подписывайтесь в социальных сетях и делайте репосты!

Социальные сети

☕ Понравился обзор? Поделитесь с друзьями!

Добавить комментарий / отзыв
Комментарий - это вежливое и наполненное смыслом сообщение (правила).



* Нажимая на кнопку "Отправить", Вы соглашаетесь с политикой конфиденциальности.
Социальные сети
 

 

Программы (Freeware, OpenSource...)