Что такое дубли страниц?

Что такое дубли страниц?

В рамках данной заметки, я расскажу вам что такое дубли страниц, а так же некоторые особенности. И начну с определения.

 

Что такое дубли страниц и чем опасны?

Что такое дубли страниц?

Дубли страниц - это схожие или идентичные страницы сайта, которые доступны по разным URL-адресам. Основная проблема таких страниц в том, что, без определенных действий, они негативно влияют на индексацию и ранжирование в поисковых системах.

А теперь чуть более развернуто. Суть в том, что поисковики, такие как Яндекс и Google, определяют какую конкретно страницу необходимо отображать пользователям для их поисковых запросов, исходя из ряда факторов, в том числе и текста. Это означает, что если поисковик увидит в сайте 2 одинаковые страницы по содержанию (или смыслу, но об этом чуть позже), то у него возникнет неопределенность - "какую из них индексировать (и, соответственно, отображать)". Это уже не говоря о том, что дубли страниц - это в некотором смысле спам.

Подобное приводит к следующим проблемам:

1. Часть нужных страниц может быть не проиндексировано. К примеру, один и тот же обзор отображается для адреса "site/page1" и "site/page2". Вы выстраиваете сео оптимизацию относительно "site/page1", однако поисковик вместо этого проиндексировал только "site/page2". Результат не сложно предположить.

2. Уменьшается влияние ссылочной массы. Ссылочная масса используется поисковиками для определения важности сайта и его отдельных страниц. Если не считать искусственно созданную массу, которая направляется на конкретные заранее заданные страницы, то естественная растет исходя из того, с чем сталкиваются пользователи сайта. А откуда последние знают, что данная страница дубль и что в комментариях нужно писать другой адрес? Ниоткуда. Поэтому часть таких ссылок могут быть бесполезными.

3. Дубли страниц в SERP. Если в serp-е поисковика отображаются дубли страниц, то это плохо, как минимум, по двум причинам. Во-первых, это захламление, которое неудобно ни пользователям, ни поисковикам. А, во вторых, существуют поведенческие факторы. Это означает, что если пользователи будут более активны в копиях страниц, то поисковик может посчитать их более важными и, соответственно, отображать выше основной.

4. Снижаются позиции в поисковиках. Как уже было не сложно догадаться, дубли - это ряд проблем и "неоднозначностей". Поэтому чем их больше, тем выше вероятность, что позиции каждой из страниц будут снижены. Утрируя, если продублировать 1 страницу 1000 раз, то вряд ли хоть одна из них сможет достигнуть топа.

5. При большом количестве дубликатов возможны фильтры. Поисковикам не нравятся дубли, поэтому чем их больше в сайте, тем больше вероятность возникновения фильтров. При чем речь не только о конкретных страницах "под копирку", фильтр может касаться всего сайта в целом. Утрируя, если на сайте из 5 страниц сделать 1000 дубликатов одной из них, то с большой вероятностью такой сайт вообще не будет отображаться.

Тем не менее, стоит понимать, что поисковики прекрасно понимают, что полностью избавиться от дублей не всегда возможно, поэтому многое зависит от того, как они возникли и каково их количество. Например, несколько копий в сайте с тысячами обзоров вряд ли вызовет особые проблемы. Однако, это и не означает, что с дублями не нужно бороться.

Примечание: Кстати, так же советую ознакомиться с обзором - Парадокс дублированного контента (скопированного) на сайте.

 

Какие бывают виды дублей?

Полные дубли страниц - это ситуации, когда по разным URL-адресам отображается одна и та же страница. При чем чаще всего речь о контенте, так как менюшки и прочие элементы могут частично или незначительно меняться. Например, разные "хлебные крошки", или фоновая картинка, или реклама.

Частичные дубли страниц (неполные) - это ситуации, когда один и тот же фрагмент (или несколько) отображается в разных страницах. Например, если в одном обзоре отображаются фрагменты из другого обзора (цитаты), то это частичный дубль. Или если заметка в нескольких категориях, то ее анонс (претекст; вводный текст) дублируется в этих категориях.

Смысловые копии страниц - это ситуации, когда чисто технически текст в страницах различается, но смысл у них один и тот же.

Чаще всего обращают внимание только на первый вид, но в реальности важны все три. Утрируя, 1000 обзоров о том как продвигать сайт низкочастотными запросами, написанные разными авторами, но расположенными в одном сайте по разным URL-адресам, принесут больше вреда, чем пользы.

Примечание: Кстати, поэтому-то в форумах часто не дают создавать разные ветки для обсуждения одних и тех же вопросов. Не говоря уже о том, что контент как бы "расползается".

 

Причины возникновения дублей страниц

Вообще, существует много возможных причин возникновения дублей, но рассмотрим самые частые из них:

1. Сайт с www и без www. Чисто технически это дубль не только отдельной страницы, но и вообще всего сайта, так как никто не запрещает в сайте с www отображать иной контент, чем в сайте без www. Иными словами, "www.site/page1" и "site/page1" это дубли.

Примечание: Обзоры как решить проблему с www.

2. Сайт с https и без. Аналогично предыдущему, никто не мешает сайту отображать разный контент в зависимости от используемого протокола.

Примечание: Обзоры как решить проблему с https.

3. Ручные копии. Банально, но нередко бывает в больших сайтах, когда одна и та же тема освещается в нескольких обзорах. Поэтому прежде, чем размещать что-либо, стоит проверять наличие уже существующего контента.

4. Особенности CMS. Например, бывает так, что CMS подразумевает дублирование контента. Утрируя, если обзор page1 находится в категории cat1 и cat2, то возможно появление дублей вида "site/cat1/page1" и "site/cat2/page1".

5. Параметры в URL. Вообще, чисто технически параметры в URL-адресе формируют разные страницы. Например, "site/?page=123" и "site/?page=2543" это разные страницы. В чем важность? Дело в том, что это необходимо учитывать при использовании реферальных ссылок или utm меток, так как они создают из одного адреса несколько.

Так же это касается и технических аспектов. Например, если у вас автоматически формируются ссылки с различными параметрами в стиле "site/page1?from_url=menu" ("с какого адреса пришли") для одних и тех же страниц, то, по сути, каждая такая ссылка формирует дубль страницы.

6. Ошибки в сайте. Как говорится, ошибки бывают.

7. Главная страница сайта. Нередкая ситуация, когда главная страница сайта доступна по нескольким разным URL-адресам. В стиле "site", "site/index.php", "site/index.html" и т.п. Поэтому это так же стоит проверять.

8. Со слешом и без слеша в конце адреса. Суть в URL вида "site/page1" и "site/page1/". Чисто технически это два разных адреса, ведь никто не мешает в коде сайта проверять наличие слеша в адресе.

9. Разный регистр. Многие пользователи Windows могли привыкнуть, что регистр никак не влияет. Однако, в случае с сайтами регистр важен. Например, ссылки "site/page" и "site/PAGE" - это два разных адреса.

 

Как найти дубли страниц на сайте?

Вообще, подход очень сильно зависит от того, большой ли у вас сайт или маленький, и от того, необходимо ли проверить конкретные страницы или же весь сайт. Поэтому далее приведу несколько методов, а там уже подбирайте в зависимости от задач.

1. Ручной поиск. В данном случае речь идет о двух вещах. Во-первых, можно воспользоваться встроенным поисков в самом сайте. А, во-вторых, можно использовать поисковые системы, добавив к ним "site:[ЗДЕСЬ_ВАШ_САЙТ]" (позволяет отображать только страницы вашего сайта).

Отдельно отмечу, что эти два метода различаются и об этом необходимо помнить. Дело в том, что поисковые системы могут не проиндексировать все страницы сайта. Некоторые из них могут выпадать из результатов поиска, из-за тех же дублей или еще каких причин.

2. Онлайн сервисы для поиска дублей страниц. Не указываю конкретных сайтов, так как они периодически то появляются, то исчезают. При чем далеко не у каждого из них существует бесплатный вариант, а если существует, то он может быть сильно ограничен по возможностям. Поэтому тут лучше самим в поиске пробежаться по актуальным сервисам.

3. Специальные программы. Например, программа Xenu из обзора программ для проверки ссылок. Вообще, она не совсем для этого предназначена, но ее так же можно использовать для поиска дублей. Дело в том, что она позволяет находить повторяющиеся заголовки (title) и описание (description). Полезно для поиска полных дубликатов.

4. Проверка отдельных случаев. Например, с тем же www или https. Это вполне несложно сделать вручную. Кроме того, не будет лишним посмотреть основные возможности сайта. Например, создать обзор, разместить его в нескольких категориях и посмотреть возникнут ли дубли страниц.

5. Анализ ссылочной массы. Существует немало разных онлайн сервисов (названия так же не указываю, так как их список от года к году разный - проще самим посмотреть в поисковиках), которые позволяют отображать обратные ссылки. Не говоря уже о том, что и сами панели поисковиков могут это делать. Например, панель Яндекса позволяет просматривать обратные ссылки. Соответственно, собрав такую информацию, можно узнать какие URL-адреса используются и нет ли в них таких, которые вы не предусматривали.

 

Как убрать дубли страниц?

Существует четыре основных метода:

1. Использование rel="canonical". Суть в том, что если в тэге head разместить специальный тег с указанием основного адреса страницы, то тогда у поисковиков не возникнет особых проблем, так как их боты будут видеть "это оригинальная страница или копия", а так же "по какому адресу расположена оригинальная страница".

<link rel="canonical" href="http://site/cat1/page.php" />

В таком случае внешние ссылки на дубли страниц, как и сами страницы, должны нормально восприниматься поисковиками и передавать вес в основную. Однако, как говорится, механизм поисковиков известен только самим поисковикам. И это необходимо учитывать.

2. Использовать robots.txt. Если вы точно знаете, что некие разделы или части сайта созданы только лишь для удобства пользователей и не должны индексироваться поисковиками, то их можно исключить через robots.txt.

Минус данного метода в том, что внешние ссылки на непроиндексированные страницы могут игнорироваться или восприниматься с меньшим эффектом, не говоря уже о том, что такие варианты не всегда можно составить для всех случаев.

3. Noindex, Nofollow. Можно исключать из индекса дубли страниц с помощью мета-тегов с noindex. Однако, минус такой же, как и у robots.txt - вопрос внешних ссылок и передачи их веса.

4. 301 редирект. Редирект это переадресация страниц, поэтому в данном случае со стороны поисковика это выглядит как физическое избавление от дублей страниц (это уже не говоря о том, что самих копий в природе может не существовать). Плюсы данного метода в: перенос веса внешних ссылок, пользователи используют только один вариант страницы (даже те, которые перешли по другой ссылке, их же ведь перенаправит). Минусы в: редирект это время, не для каждого сайта подходит такой метод, копии страниц становятся недоступными.

Вообще, приоритетными являются 1-й и 4-й, так как у них меньше негативный эффект на сео. Однако, ситуации бывают разными, поэтому стоит знать о каждом из них. Так же настоятельно советуется не сильно усложнять сайт использованием комбинаций методов. Иначе вполне возможно, что будут возникать проблемные ситуации. Например, пересечение страниц robots и canonical. Файл robots.txt является первичным, поэтому поисковик попросту не будет учитывать canonical (хотя всякое бывает, например, поисковик может игнорировать robots, но это скорее исключение).

Понравилась заметка? Тогда время подписываться в социальных сетях и делать репосты!

☕ Понравился обзор? Поделитесь с друзьями!

Комментарии / отзывы  

0 # Aj2k 23.03.2020 12:52
Даже не задумывался о частичных копиях. Крутецкий обзор!
Ответить | Ответить с цитатой | Цитировать | Сообщить модератору
0 # Ольга Квезаль 07.11.2022 23:21
У меня дублей 9% все они - метки. Думаю, это некритично.
Ответить | Ответить с цитатой | Цитировать | Сообщить модератору
0 # Игорь 09.11.2022 08:16
Зависит от сайта. Если у вас нормальный контент, то не страшно. Иное дело, что дубли в метках тоже не особо хорошо. Например, если две страницы с отличием только в заголовке, то не стоит ожидать, что обе страницы будут индексироваться.
Ответить | Ответить с цитатой | Цитировать | Сообщить модератору

Добавить комментарий / отзыв

Комментарий - это вежливое и наполненное смыслом сообщение (правила).



* Нажимая на кнопку "Отправить", Вы соглашаетесь с политикой конфиденциальности.
Присоединяйтесь
 

 

Программы (Freeware, OpenSource...)