Дубли страниц: чем плохи дубликаты, как найти и удалить

Дубли страниц

Дубли страниц — весьма распространенная SEO-ошибка, которая может возникать вследствие некорректных настроек CMS, изменения структуры сайта и ошибок, допущенных вебмастерами. Наличие дубликатов может повлечь за собой серьезные последствия и свести все усилия, связанные с продвижением веб-проекта, на нет. В текущей статье мы рассмотрим, чем плохи дубли страниц, как найти их и убрать.

Содержание:

Что такое дубли страниц сайта и почему от них нужно избавиться
Виды дублей
- Полные дубли
- Частичные дубли
Как найти дубли страниц
Как удалить дубли страниц

Что такое дубли страниц сайта и почему от них нужно избавиться

Дубли страниц — это определенные страницы сайта, содержащие частично или полностью одинаковый контент.

По сути, это два или больше уникальных URL-адреса с одинаковым или отчасти повторяющимся содержанием.

Чем плохи дубли страниц? Когда на сайте есть несколько одинаковых страниц, поисковые системы не могут понять, какую из них нужно показывать пользователям по релевантному запросу. Вследствие вместо приоритетных страниц в основном поиске могут оказаться дубли, которые наоборот нужно убрать из сайта и исключить из поиска.

Если ничего не предпринимать и оставить все на самотек, понадеявшись на алгоритмы поисковых систем, последствия могут быть очень серьезными:

Проблемы с индексацией. Допустим, вы владелец интернет-магазина с несколькими тысячами страниц, на каждую из которых из-за неправильных настроек системы управления сайтом автоматически генерируется по одному дубликату. При таких обстоятельствах общий размер сайта увеличивается, а количество страниц, которые поисковый робот может просканировать на сайте за один раз, остается прежним. Таким образом во время очередного визита новые нужные страницы могут остаться не у дел.
Изменения релевантной страницы в выдаче. Поисковый алгоритм в любой момент может посчитать дубль более релевантным запросу. Смена страницы в поисковой выдаче часто сопровождается существенным понижением позиций.
Неправильное распределение внутреннего ссылочного веса. В процессе наполнения сайта очень важно связывать страницы между собой, делать так называемую внутреннюю перелинковку. Правильная внутренняя перелинковка положительно влияет на поведенческие факторы, качество индексации, распределение статического и динамического веса между страницами. Однако, если изменить структуру проекта, образуются неправильные внутренние ссылки, ведущие на страницы (дубли), которые поисковики могут посчитать более значимыми.
Потеря естественной внешней ссылочной массы. Если опубликованный на вашем ресурсе материал будет действительно интересным и полезным, есть вероятность того, что пользователь захочет поделиться им с друзьями. Как мы знаем, получение естественных ссылок — сложный процесс, требующий внимания к деталям, анализа множественных факторов, знаний и навыков. Кроме того — это дорого (если задачу поручить линкбилдеру) и времязатратно (если заниматься этим самому). И тут вдруг вашим контентом хотят безвозмездно поделиться. Стоит ли пренебрегать такой возможностью?

Статья по теме: Что такое крауд-маркетинг, кому он нужен и где его заказать

Очевидно, дубликаты страниц на сайте оказывают негативное влияния на продвижение, следовательно, этому вопросу нужно уделять должное внимание.

Виды дублей

Как выше уже было сказано, дубликаты страниц бывают двух типов: полные и частичные.

Полные дубли

Полные дубли — страницы с полностью одинаковым контентом, доступные по разным URL.

Чтобы было проще ориентироваться, рассмотрим самые распространенные полные дубли страниц:

Версия с/без www. Возникает, если пользователь не указал главное зеркало — адрес, который участвует в результатах поиска.

https//www.site.com

https//site.com

Дубли страниц с html и https протоколом.

http//site.com

https//site.com

Дубли страниц с и без слеша «/» в конце URL.

https//site.com

https//site.com/

Страницы с и без суффиксов index.php, index.html, home.php, home.html.

https://site.com

https://site.com/index.php

https://site.com /index.html

https://site.com/home.php

https://site.com/home.html

Проблемы с иерархией разделов, которые генерируют копии.

https://site.com/catalog/dir/products

https://site.com/catalog/products

https://site.com/products

https://site.com/dir/products

URL-адреса страниц в верхнем и нижнем регистрах.

https://site.com/category

https://site.com/CATEGORY

https://site.com/Category

Дополнительные UTM-метки, которые используются, чтобы передавать данные для анализа рекламы и источника переходов. Создаются с помощью генератора UTM, либо просто руками. Всё зависит от того, какие именно переходы вам нужно отслеживать. Добавляются в конце URL через знак вопроса «?».

https://site.com/winter_sale?utm_source=google&utm_medium=search&utm_campaign=zhenskie-hudi&utm_content=ad1&utm_term=zhenskie-hudi-s-kapyushonom

Страницы с GET-параметрами. Позволяют передать определенные показатели, например, номер товара или номер заказа. В URL-адресе обязательно содержится знак «?», после которого следует GET-параметр. Если интернет-магазин отдает ответ с кодом 200 на любые GET-параметры, которые не определены заранее, возникают дубли.

https://site.com/products/man/shirts/blue

https://site.com/products/man?category=shirts&color=blue

Неправильно настроенная страница 404 приводит к появлению дублей.

https://site.com/gun-50381-gun

https://site.com/1897-???

Учтите, на месте выделенного текста могут быть любые другие символы.

Непереведенные языковые версии или неправильная их реализация.

https://site.com/category/accessories

https://site.com/en/category/accessories

Первая страница пагинации каталога товаров интернет-магазина или доски объявлений, блога. Она зачастую соответствует странице категории или общей странице раздела pageall.

https://site.com/catalog

https://site.com/catalog/page1

Множественное добавление слешей «/////////» в конце URL и между вложенностями.

https://site.com/catalog/product

https://site.com/catalog/product//////

https://site.com/catalog//////product

Полные дубли обычно возникают по нескольким причинам:

Технические ошибки в CMS, а также неправильные настройки, из-за которых образовываются синонимы в окончаниях названия URL.
Некорректный переход на HTTPS протокол. Если внести изменения и не указать поисковикам об этом, идентичный контент будет отображаться по двум протоколам.
Редизайн, изменения в структуре, перенос сайта на другую CMS. Все это приводит к смене адресов, однако старые страницы могут оставаться доступными.

Частичные дубли

Частичные дубли — страницы с похожим контентом и общей семантикой, которые решают одни и те же задачи пользователей, но не являются полными дублями.

Найти их гораздо сложнее чем предыдущие, однако и проблем они доставляют меньше.

Чаще всего это:

Дубли на страницах фильтров, сортировок, поиска и пагинации.

Пагинация на сайте

Например, постраничная навигация, формирующаяся на страницах, где размещено большое количество информационных постов, карточек товаров, обсуждений на форумах и т. д. URL-адрес немного изменяется, но title и description остаются прежними.

https://site.com

https://site.com/page/2

Дубли на страницах отзывов, комментариев, характеристик. Например, страницы с комментариями, где создается дополнительный параметр в адресе, но контент остается прежним.

https://site.com/category/t-shirts

https://site.com/category/t-shirts?razmer=1

Дубли на карточках товаров и страницах категорий (каталогов). Частыми виновниками возникновения дублей являются одинаковые описания товаров, оставленные на общей странице товаров в каталоге и на отдельных страницах карточек товаров. Например, в каталоге на странице категории под каждым товаром есть фрагмент описания товара (смотрите скриншот).
Наличие версии для печати, PDF для скачивания, полностью соответствующей основным страницам.

https://site.com/blog/design

https://site.com/blog/design/print

Сгенерированные AJAX слепки страниц.

https://site.com/#/page

https://site.com/?escaped_fragment_=/page

Синонимические текстовые дубли, которые возникают из-за неправильной группировки ключевых слов. Ситуация довольно распространённая при наполнении e-commerce проектов, когда одинаковые товары или услуги описываются с помощью синонимов. В результате в рамках одного сайта публикуется несколько страниц с одинаковым смыслом, но при этом их URL, title, description и H1 отличаются. Например, на сайте есть статья «10 преимуществ шугаринга», где расписаны достоинства данной процедуры, и отдельная статья «Плюсы шугаринга». Скорее всего информация в материалах будет пересекаться или, еще хуже, повторяться и правильнее было бы написать одну объёмную статью на эту тему.

Частичные дубли обычно возникают по нескольким причинам:

Неправильная настройка или осознанные действия в оформлении страниц. Например, в интернет-магазине используется одинаковый текст для описания различных товаров.
Ошибки при внедрении фильтра по каталогу. Распространенной является ситуация, при которой страницы товаров, отличающихся лишь одним параметром (цвет, размер), становятся дубликатами.
Одинаковый контент на всех страницах из-за неправильной структуры.
Умышленное дублирование, когда частичные дубли создают намеренно, чтобы ранжироваться по похожим запросам на разных страницах.

Как найти дубли страниц

Итак, мы уже выяснили, что такое дубли, какими они бывают и какое влияние они оказывают на поисковое продвижение. Самое время поговорить о том, как их обнаружить. Поиск дублей страниц осуществляется ручным способом или с помощью специальных программ и онлайн-сервисов.

Проверка дублей страниц ручным способом

Ручной мониторинг выдачи целесообразно применять при анализе небольших проектов (до 200 страниц). Чтобы узнать количество проиндексированных страниц, используйте оператор «site:».

Для этого в поисковой строке, например Google, пропишите запрос:

site:yoursite.com

Разумеется, вместо «yoursite.com» нужно указать доменное имя вашего сайта, иначе вы запросите проверку индекса западной площадки по созданию сайтов Yoursite.com :-)

После отображения результатов общего индекса нужно внимательно изучить их на наличие копий. Обратите внимание на то, что Google показывает примерные результаты, т. е. в действительности цифры могут отличаться.

Результаты Google поиска

На последней странице результатов поиска вы увидите ссылку «Показать скрытые результаты». Нажмите на нее, чтобы ознакомиться с результатами, которые Google счел очень похожими на те, которые он привел выше. В ходе анализа обратите внимание на необычные заголовки и URL-адреса страниц, которые вызывают подозрение.

Скрытые результаты Google поиска

Чтобы сравнить результаты общего индекса с основным, добавьте в конце команды амперсанд «&»:

site:yoursite.com/&

Сопоставив разницу между двумя результатами, можно определить, какое количество страниц находится в дополнительном индексе.

Если вы хотите проверить коммерческий веб-проект (интернет-магазин, сайт услуг) на наличие дублей страниц в блоге, используйте оператор:

site:yoursite.com/blog

Выявить ошибки индексации на страницах рубрик WordPress поможет команда:

site:yoursite.com/category

Если у вас есть подозрения, что какая-то конкретная страница имеет дубли, используйте оператор:

site:yoursite.com «Фрагмент текста со страницы, которая вызывает подозрения»

О том, что данная страница почти наверняка имеет дубли говорит несколько результатов в выдаче.

Проверить страницы на совпадающие заголовки поможет команда:

site:yoursite.com intitle:ваш title

На сайте могут быть тысячи страниц, а поэтому выполнить их анализ надлежащим образом даже при самом огромном желании, используя всего лишь поисковые операторы — задача практически невыполнимая. Гораздо умнее, быстрее и проще воспользоваться специальными онлайн сервисами и десктопными программами, о которых мы поговорим ниже.

Проверка дублей страниц с помощью сервиса «Яндекс.Вебмастер»

О том, что такое «Яндекс.Вебмастер» и как добавить туда сайт, написано сотни текстов. Мы не станем повторяться и расскажем куда нужно зайти и на что обратить внимание, чтобы обнаружить дубли страниц сайта.

Итак, последовательность действий такова:

перейдите во вкладку «Индексирование»;
выберите подкатегорию «Страницы в поиске»;
нажмите по ссылке «Исключенные».

Исключенные страницы

Обратите внимание на желтые цифры, расположенные возле статуса «Дубль». Это, по мнению «Яндекса», и есть копии. Наведите курсор мыши на гистограмму, чтобы ознакомиться с историей изменений поисковой выдачи.

История изменения выдачи «Яндекса»

Поиск дублей страниц онлайн

Apollon

Бесплатный, простой в использовании сервис, предоставляющий возможность проверить сайт на дубли онлайн. Все что нужно — перейти по ссылке, в соответствующем поле указать URL-адрес, нажать кнопку «Отправить» и немного подождать.

Вы можете ввести до пяти URL (каждый с новой строки), что очень удобно при анализе крупных интернет-магазинов, когда нужно выполнить анализ главной страницы, страницы категорий, товаров, целевых и служебных страниц (карта, с указанием местоположения, оплата, доставка и т. д.).

Поиск дублей страниц на сервисе Apollon

Процесс обработки данных занимает несколько секунд. В итоге вы получите пять удобных таблиц (при условии добавления пяти URL, как в нашем примере) с подробной информацией о каждом адресе.

Результаты анализа на сервисе Apollon

Чтобы было проще обнаружить отличия можно отметить чекбокс «Показать отличия от проверяемого URL».

Показать отличия от проверяемого URL

Ознакомившись с вышеуказанным примером можно прийти к заключению, что на сайте присутствуют дубли с суффиксами home, home.php и home.html, которые обязательно нужно удалить.

Для информационных и новостных порталов можно проверить, например, дубли главной страницы, страницы разделов и тегов, отдельных информационных публикаций или новостей и служебных страниц (контакты, карта сайта, страница FAQ).

SE Ranking

SEO платформа с широким функционалом, оснащенная всевозможными инструментами для SEO и онлайн-маркетинга. Сервис платный, но есть бесплатный 14-дневный триал, которого будет достаточно, чтобы проверить дубли страниц и принять соответствующие меры. Сервис позволяет проверить наличие у сайта зеркала с «www» или без «www» в адресе, обнаружить страницы с одинаковым контентом и дублирующимися метатегами title и description, которые могут быть признаками копий.

Технический аудит сайта на сервисе SE Ranking

Для детального ознакомления с проблемой, кликните по ссылке с выпадающим текстом «Подробнее». В нашем примере решение проблемы — 301 редирект в файле .htaccess, который расположен в корневой директории вашего сайта. Кто не знает, под корневой директорией подразумевается папка (каталог), в которой находятся все файлы ресурса.

Итак, чтобы воспользоваться сервисом SE Ranking, перейдите по ссылке, пройдите регистрацию и добавьте свой проект. Чтобы было проще разобраться, мы подготовили для вас подробную пошаговую инструкцию.

Дальнейшие действия сводятся к нескольким простым шагам:

Перейдите на вкладку «Анализ сайта».

Вкладка «Анализ сайта» на сервисе SE Ranking

Выберите добавленный ранее проект.

Выбор проекта на сервисе SE Ranking

Запустите проверку или ознакомьтесь с результатами, которые появятся в течение кратчайшего времени (зависит от размеров проекта) при условии, что в процессе его добавления и настроек переключатель «Анализ сайта» остался включенным.

Выполнить анализ сайта автоматически

Известие об завершении анализа вы получите на E-mail, указанный при регистрации. Как видно со скриншота, в процессе анализа SE Ranking обнаружил 92 страницы с дублирующимся title.

Анализ метатегов на сервисе SE Ranking

Нажмите на значок в виде ссылки, чтобы посмотреть на каких URL расположены одинаковые метатеги title.

Поиск дублей страниц с помощью программ

Если по каким-то причинам проверка сайта на дубли страниц онлайн вас не устраивает, можно выполнить их поиск с помощью стационарных программ.

Netpeak Spider

Замечательная программа, которая есть на «вооружении» у многих агентств интернет-маркетинга и SEO-компаний. В первой половине октября 2020 года стала доступной бесплатная версия Netpeak Spider, в которой доступен практически весь функционал без ограничений по времени использования, количеству URL и с возможностью кастомизации настроек. Если раньше после окончания пробного периода и/или окончания платного тарифа, доступ к программе был заблокирован, то теперь вы можете беспрепятственно открыть краулер и продолжить пользоваться его инструментами без подписки!

Окно бесплатной версии программы Netpeak Spider

Что касается ограничений, то в бесплатной версии нет возможности экспортировать отчёты, копировать и фильтровать данные, сохранять проекты и использовать дополнительные фичи. Получается, что даже если в результате анализа в ошибках отобразятся дубли, в бесплатной версии программы придется анализировать вкладку «Все результаты», чтобы посмотреть, какие URL являются копиями, так как отфильтровать данные не получится.

Вкладка «Отфильтрованные результаты»

На момент написания этой статьи анализатор умел определять более 100 ключевых ошибок внутренней оптимизации, включая:

битые страницы;
дубликаты текста;
дубликаты title, description и H1;
битый редирект;
большое время ответа сервера и т. д.

О том, как пользоваться программой Netpeak Spider, у нас написано подробное наглядное руководство. Переходите по вышеприведенной ссылке, изучайте информацию и берите статью в закладки, чтобы не потерять.

Вкратце:

Посетите сайт разработчика, пройдите регистрацию и установите на компьютер Netpeak Launcher — десктопную программу для управления продуктами Netpeak Software.
Запустите Netpeak Launcher и установите через нее Netpeak Spider (вместо «Запустить» у вас будет «Установить»).

Netpeak Launcher

Запустите анализатор, вставьте в поле URL-адрес, который вы намереваетесь проверить, после чего нажмите кнопку «Старт».

Отчет проверки в Netpeak Spider

Обратите внимание на правую область программы, где расположены отчеты проверки, с которыми можно более подробно ознакомиться. Для этого наведите курсор мыши на ошибку и кликните по ней левой кнопкой мыши.

Отчет проверки в Netpeak Spider

Полезное: Как проверить сайт на SEO-ошибки

Xenu

Xenu's Link Sleuth — 100 % бесплатная программа для внутреннего технического аудита, которая умеет определять битые ссылки, дубли страниц, распознавать скрытые внешние ссылки, а также ссылки, возвращающие редирект. Отсутствие русского языка — пожалуй единственный ее недостаток.

Для скачивания программы, перейдите на сайт разработчика и нажмите «download».

Скачивание программы Xenu

Откройте скачанную на ПК ZIP-папку и нажмите «Setup», чтобы продолжить установку.

Чтобы проверить сайт на дубли страниц с помощью Xenu, следуйте дальнейшей инструкции:

Запустите программу, закройте модальное окно («Close») и нажмите по ярлыку, напоминающему изображение файла.

Окно программы Xenu

Укажите URL-адрес проекта.

Окно программы Xenu

Дождитесь окончания сканирования. Выберите «Да», если хотите открыть отчет локально в окне браузера, «Нет», если планируете продолжить работу в пользовательском интерфейсе программы.

Окно программы Xenu

Ознакомьтесь с результатами. В процессе анализа обратите внимание на повторяющиеся заголовки и мета-описания, которые могут указывать на дубли страниц.

Отчет проверки в Xenu

Полезное: Раскрутка сайта самостоятельно: полный пошаговый гайд по продвижению

Как удалить дубли страниц

После обнаружения дублей, первое, что необходимо сделать — найти причину, из-за которой они появляются, и постараться ее устранить.

Выделяют четыре основных метода удаления дублей:

<meta name="robots" content="noindex">;
301 редирект;
rel="canonical";
robots.txt.

Метатег robots

Позволяет задать роботам правила загрузки и индексирования определенных страниц сайта. Учитывается поисковой системой «Яндекс» и Google.

Метатег <meta name="robots" content="noindex" /> следует разместить в HTML-коде дублирующихся страниц в разделе <head>.

Пример:

<!DOCTYPE html>
<html><head>
<meta name="robots" content="noindex" />
(…)
</head>
<body>(…)</body>
</html>

Заданное для атрибута content значение noindex запрещает поисковым системам показывать страницу в результатах поиска.

Больше информации о специфике и применении метатега robots вы найдете в справочных материалах Google и «Яндекс».

301 редирект

Несомненно, один из самых действенных и известных методов устранения дублей, который позволяет автоматически перенаправить пользователей с одной страницы на другую. 301 редирект говорит поисковым системам о том, что старый URL-адрес имеет новый путь на постоянной основе. Со временем два или больше документа «склеиваются» в один, на который ведет перенаправление. При этом ссылочный вес сохраняется, поскольку передается со старой страницы на новую.

Настройка осуществляется через редактирование файла .htaccess либо с помощью плагинов.

Вот несколько плагинов для CMS WordPress:

Владельцам сайтов на движке Joomla достаточно воспользоваться встроенным менеджером перенаправлений.

Прежде чем настроить редирект в файле .htaccess, сначала сделайте его бэкап (резервное копирование).

Например, чтобы задать редирект с www на без www, разместите одно из правил:

RewriteEngine On
RewriteCond %{HTTP_HOST} ^www\.(.*)$
RewriteRule ^(.*)$ http://%1/$1 [L,R=301]

или

RewriteEngine On
RewriteCond %{HTTP_HOST} ^www\.(.*)$ [NC]
RewriteRule ^(.*)$ http://%1/$1 [R=301,L]

Переадресация с одной статической страницы на другую осуществляется за счет добавления строки:

Redirect 301 /old-page http://yoursite.com/new-page

где:

old-page — страница, с которой происходит редирект;
new-page — страница, на которую установлен редирект.

Атрибут rel="canonical"

Укажите каноническую страницу, чтобы показать поисковым системам, какую страницу нужно индексировать при пагинации, сортировке, попадании в URL GET-параметров и UTM-меток. Этот способ уместен, когда удалять страницу нельзя и её нужно оставить открытой для просмотра. Учитывается поисковой системой «Яндекс» и Google.

Указывая каноническую ссылку, мы указываем адрес страницы, предпочтительной для индексации. Атрибут rel="canonical" нужно прописать между тегами <head>...</head> на всех страницах, которые являются дублями.

Например, страница доступна по двум адресам: yoursite.com/pages?id=2 и yoursite.com/blog.

Если предпочитаемый URL — /blog, добавьте в HTML-код страницы /pages?id=2 элемент link:

Больше информации о специфике применения атрибута rel="canonical" вы найдете в справочных материалах Google и «Яндекс».

Файл robots.txt

Еще одно решение — запретить роботам индексировать дубликаты, дописав в файл robots.txt директиву Disallow. Чаще всего используется в тех случаях, когда нужно запретить индексацию служебных страниц и дублей.

Например, закрыть страницы пагинации от индексации Joomla поможет:

Disallow: /?start*

Учтите, директивы в robots.txt носят рекомендательный характер и могут быть проигнорированы поисковыми роботами, но как правило, они учитывают данное указание.

Итог

Дубли страниц — проблема из разряда «крупногабаритных и тяжеловесных». Если вовремя не отреагировать, все дальнейшие усилия по продвижения могут быть сведены на нет. Надеемся, представленные в этой статье методы помогут оптимизировать ваш ресурс и занять топовые места в поисковой выдачи.

сообщить об ошибке

Обнаружили в тексте грамматическую ошибку? Пожалуйста, сообщите об этом администратору: выделите текст и нажмите сочетание горячих клавиш Ctrl+Enter

Понравилась статья? Угостите админа шаурмой и кофе.

Что такое дубли страниц, какими они бывают, как найти их и удалить

Что такое дубли страниц сайта и почему от них нужно избавиться

Виды дублей

Полные дубли

Частичные дубли

Как найти дубли страниц

Проверка дублей страниц ручным способом

Проверка дублей страниц с помощью сервиса «Яндекс.Вебмастер»

Поиск дублей страниц онлайн

Apollon

SE Ranking

Поиск дублей страниц с помощью программ

Netpeak Spider

Xenu

Как удалить дубли страниц

Метатег robots

301 редирект

Атрибут rel="canonical"

Файл robots.txt

Итог

Сервисы для заработка

Страница в Facebook