Внутренние дубли страниц: найти и обезвредить

Нередко ошибки индексации сайта или даже полный провал продвижения сайта может случиться из-за наличия внутренних дублей страниц. Ведь, если у страницы, которую вы продвигаете, есть дубль, то может случиться так, что после очередного апдейта, он заменит в выдаче необходимую страницу. Естественно, что такая подмена значительно влияет на позицию сайта в поисковых системах, ведь у дубля нет ссылочной массы, в отличие от страницы, которая продвигается.Именно поэтому следует тщательно проверять наличие дублей, а также исправлять возможные ошибки, которые приводят к образованию страниц-копий.

Дубли страниц – откуда они берутся?

Откуда же возникают дубли страниц, и какие они бывают? Всего выделают два вида дублей: четкие дубли и нечеткие. Первый вид – это копия оригинала страницы, которая имеет абсолютно одинаковый с оригиналом контент, но отличаются разными URL-адресами. Как пример можно привести страницу для печати и ее оригинал, одинаковые страницы с разными вариантами расширений (.html, .php, .htm), страницы с идентификаторами сессий. Большая часть четких дублей генерируется движком сайта, хотя есть и те копии, что появляются из-за невнимательности разработчика. Часто четкие дубли возникают после изменения дизайна или структуры сайта – тогда всем страницам присваиваются новые URL-адреса, хотя старые также работают, поэтому и получается, что страницы с одинаковым контентом доступны с двух разных URL-адресов.

Второй вид, а именно нечеткие дубли – это страницы, контент которых между собой похож: – страницы, на которых либо частично либо полностью, но в другом порядке представлена одна и та же информация. Например, страницы с одними и теми же товарами в интернет-магазинах, но товары на них отсортированы по разному (по популярности, по новизне, по цене и т.д.) или страницы разных рубрик, на которых представлены товары с одинаковыми описаниями. - страницы, на которых объем контентной части намного меньше сквозной части: страницы товарных наименований со слишком кратким описанием товара, страницы галерей на которых содержание страницы это лишь одна картинка, а остальное – сквозные блоки, и т.д.

Можно ли, и как определить есть ли дубли страниц на сайте?

Определить наличие дублей внутри сайта можно. Для этого нужно использовать поисковики Яндекса. В строку поиска вбиваете часть текста страницы, которая может иметь дубли. Учтите, что нужно открывать «расширенный поиск», а текст вводить в кавычках. Кроме того, нужно указать свой домен в сроке (текст нужно вводить в кавычках), и указать в строке «на сайте». Все, что выдастся вам, как результат поиска – это четкие или нечеткие дубли.

Поиск дублей страниц в Яндексе

Также наличие дублей можно определить и с помощью поисковика Google. Аналогично к предыдущему варианту, в поисковую строку необходимо ввести часть текста в кавычках из проверяемой страницы, а через пробел ввести область поиска.

Поиск дублей страниц в Гугл

Каким образом можно избавиться от дублей?

Самый логический и оптимальный вариант возможного избавления сайта от дублей зависит от того, как образовался дубль.

Disallow в Robots.txt

Чтобы запретить индексацию дублей страниц поисковыми роботами, или их удаления из базы используйте директиву «Disallow». Это наиболее оптимальный вариант качественной и действенной борьбы с дублями, если они находятся непосредственно в конкретных директориях или же, если структура URL дает возможность быстро закрыть много дублей с помощью одного правила. Для Примера - необходимо закрыть все страницы, которые расположены в папке www.пример_сайта.ru/search/. Для этого в Robots.txt достаточно просто прописать: Disallow: /search/

Или же другой пример. В случае, если знак «?» - это идентификатор сеанса, то вы можете запретить индексацию страниц, которые содержат данный знак, используя правило: Disallow: /*?

То есть, подобным образом вы можете запрещать для индексации четкие дубли: печать, идентификаторы сессий, страницы поиска по сайту и т.д.

Директива «Disallow» в Яндексе. Раздел помощи.
Справка Google - описание правил удаления и блокировки страниц.

Тег rel=canonical

Функцию Тег rel=canonical нужно использовать, если необходимо указать роботам, какую страницу из всей группы дублей можно выделить и она будет участвовать в поиске. Эта страница носит название «каноническая». Чтобы указать роботам на каноническую страницу сайта, следует прописать на неосновных страницах URL этой страницы. Это должно выглядеть следующим образом:

< link rel="canonical" href="http://www.пример_сайта.ru/основная_страница.html" >

Этот способ избавиться от дублей как нельзя лучше подойдет, если дублей много, но закрыть их одним правилом (через Robots.txt) нет возможности из-за особенностей URL-адреса.

Ответ 301 редирект

Респонс (ответ) 301 Permanent Redirect используют для переадресации со страницы на страницу. Этот способ используют когда некоторые страницы поменяли URL, например, после смены движка или изменения структуры сайта, но, при этом, одна страница доступна сразу по обеим адресам - и по новому и по старому. Ответ 301 редирект посылает сигнал поисковым ботам о том, что страница сменила адрес на новый, и. как результат, адрес старой страницы передается новой.

Настроить ответ 301 редирект можно, если прописать в файле .htaccess такое правило для устранения проблемы:

Redirect 301 /category/old-page.html

Также возможно настроить не единичный, а массовый редирект страниц одного типа на другой. Единственное, что нужно учесть – у страниц должна быть одинаковая структура URL.

Фантазия и творчество в работе

Нередко страницы, у которых есть признаки нечетких дублей, содержат в себе полезную информацию, и не хочется их удалять из индекса. В таком случае есть несколько вариантов работы с такой страницей: менять ее, уникализировать или добавлять контент. Для примера - проблема с нечеткими дублями появилась из-за чересчур объемной навигации, то необходимо искать варианты возможного увеличения контентной части страницы или, наоборот - сократить сквозные блоки.

Бывает и так, что страницы с описаниями разных товаров, относящихся к одинаковым категориям либо полностью копируют друг друга, либо просто очень. При это, нередко случается так, что уникализировать подобный текст невозможно, но закрывать к индексации страницу нецелесообразно. В таком случае есть еще один вариант работы - добавить на страницу различные интересные блоки: сравнение с другими товарами, отзывы о товаре и т.д.

Если в разных рубриках представлено много товаров с одинаковым описанием, также рекомендуется пофантазировать. Например, вы работаете с интернет-магазином украшений, и один и тот же товар выводится одновременно в нескольких категориях. Допустим, женские часы на золотом браслете выводятся в категории часы, золото, браслеты. Это не плохо, поскольку этот товар действительно подходит под эти категории, но если описание товара во всех категориях также выводится, и оно одинаковое, то уже это может навредить. В таком случае есть два варианты - не выводить анонсы рубрик вообще, или сократить их до минимума. Также, как вариант, менять описания в зависимости от того, какая рубрика выводиться в этот раз.

На сайтах разной сложности существует множество различных внутренних дублей. Но, как известно, не существует проблемы, которую нельзя решить, если приложить достаточно усилий и смекалки. Самое важное - не откладывать вопрос решения проблемы с дублями до того времени, когда необходимые страницы будут просто выпадать из индекса, а сайт из-за этого будет терять трафик.

Другие статьи из этого раздела: