Главная
Блог: LP и сайты
Дубли страниц на сайте: чем они опасны, как их найти и правильно удалить

Дубли страниц на сайте: чем они опасны, как их найти и правильно удалить

В процессе SEO-оптимизации часто возникает вопрос: как проверить сайт на наличие дублей страниц? В этой статье мы расскажем как это сделать и зачем вообще это нужно. А ещё поговорим о том, что плохого в дублях, как они влияют на позиции ресурса и как от них избавиться.

Разбираемся почему дубли страниц на сайте — это плохо. А ещё рассказываем как их найти и от них избавиться.

Опубликовано 30 марта 2022 16:24

Время чтения: 9,5 минут 3089 раз

Асеев Василий автор статьи Руководитель компании / Интернет маркетолог

10+ стаж работы в
интернет маркетинге
103 написано тематических
статей

социальные
сети:

Содержание

В чём опасность дублей?

Дубли — это страницы одного сайта с полностью одинаковым или очень похожим контентом. Часто они появляются из-за ошибок в работе CMS, но есть и другие причины о которых мы поговорим дальше.

Почему такие копии — это плохо?

Они забирают на себя краулинговый бюджет, выделенный на ваш сайт

Когда поисковик сканирует ресурс, чтобы потом показывать его в выдаче, за определённый промежуток времени он может просмотреть только ограниченное число страниц. Это и есть краулинговый бюджет. Если на сайте поиск натолкнётся на дубли страниц, то этот бюджет потратится на них, а реально важные разделы будут просканированы гораздо позже (или очередь до них вообще не дойдёт). А значит они могут не попасть в выдачу, и пользователи не увидят их в результатах поиска.

Одинаковый контент может конкурировать в выдаче

Может показаться, что это хорошо: ведь вы занимаете в выдаче не одну, а сразу две или больше позиций. А значит вероятность того, что пользователь выберет именно вас, увеличивается. Но на самом деле это может привести к тому, что ни одна из двух страниц не выйдет в топ-5 или топ-10. Ведь поисковик не сможет решить какая из них более релевантная, и начнётся перетягивание каната. А это не очень хорошо отразится на итоговом весе основной страницы.

Часть внешних ссылок становится бесполезна

Если дубли страниц на сайте уже получили естественные ссылки от пользователей, то при их удалении такие ссылки можно просто потерять. А значит ваши усилия по продвижению ресурса не принесут желаемой отдачи.

Алгоритмы поисковиков не любят сайты с большим количеством дублированного контента

Один из важных факторов, который обеспечивает высокие позиции ресурса — это уникальность контента. А если вы постоянно дублируете сами себя, то эта уникальность под большим вопросом. Специальные алгоритмы поисковиков отслеживают такие нарушения и могут наложить на ресурс санкции. Например, у Google за этим следит алгоритм “Панда”.

Понижается рейтинг сайта у поисковиков

Если у вас есть две одинаковые страницы, скорее всего, продвижением одной вы занимаетесь, а вторая просто существует сама по себе. И вот этот близнец-призрак может сильно влиять на остальной ресурс. Как вариант, там могут быть низкие поведенческие факторы. Из-за этого система может пессимизировать весь сайт, и SEO будет давать более плохие результаты.

Какими бывают дубли?

В целом их можно разделить на полные и частичные. Полные (или явные) дубли — это страницы, которые абсолютно копируют содержимое друг друга и отличаются только адресами. На частичных (или неявных) дублях контент может повторяться, но не полностью. Например, один и тот же фрагмент текста может быть опубликован на разных страницах, и в этом случае они могут считаться частичными копиями.

Полные

Чаще всего это страницы:

Со слешем в конце ссылки и без него. Например, https://soldimarketing.ru/ и https://soldimarketing.ru;
С адресом, написанным через www и без него. Пример: https://www.soldimarketing.ru/ и https://soldimarketing.ru/;
С использованием защищённого (https) и незащищённого (http) протокола. Например, https://soldimarketing.ru/ и http://soldimarketing.ru/;
Со ссылкой, которая написана в разном регистре. Пример: https://soldimarketing.ru/blog/ и https://soldimarketing.ru/BLOG/;
В URL которых есть UTM-метки. Например, https://soldimarketing.ru/otdel-prodazh/crm-sistema/?utm_source=yandex и https://soldimarketing.ru/otdel-prodazh/crm-sistema/?utm_source=google. По сути это ссылки на одну и ту же страницу, только в их URL содержится дополнительная информация об источнике трафика. Такие вариации не должны индексироваться поисковиками.

То есть обычно наличие полных копий связано с ошибочными способами написания URL. Чаще всего именно так появляются дубли главной страницы сайта. Чтобы это исправить, достаточно выбрать основную страницу для индексации, которую поисковик будет считать главной, и прописать, какие правила будут применяться ко всем остальным (использовать ли слеш, www, защищённый протокол и т.д.).

Но могут быть и другие варианты появления полных копий. Например, изменилась структура ресурса, некоторые разделы переехали на новые адреса, но по старым ссылкам всё ещё остался тот же самый контент.

Частичные

Такие дубли часто встречаются на ресурсах, которые сделаны на CMS. Каждая отдельная система имеет свои недочёты, из-за чего может появляться всё больше и больше дублей. Например, в сайтах на Wordpress дублирование часто происходит из-за древовидных комментариев. Человек ответил на чей-то чужой комментарий к вашей статье — привет новая копия. И чем больше ответов, тем больше дублей.

Но у появления частичных копий могут быть и более распространённые причины. Например:

Версия для печати и обычная версия. Отличаются они только дизайном: в версии для печати его по сути нет.
Разные вариации товара. Например, один предмет одежды представлен в нескольких цветах и размерах, и в итоге каждую вариацию поисковик может посчитать отдельной страницей.
Каталог. Если каталог товаров большой, то часто его разбивают на отдельные странички. Это называется пагинацией. В итоге поисковик может найти эти дубли, и все они будут ранжироваться в выдаче.
Страницы каталога с применёнными фильтрами. Они не должны показываться по всем запросам и конкурировать за внимание пользователя с основной страницей каталога. Но при этом, если человек хочет найти именно чёрные диваны, то лучше если фильтр уже будет применён.

Как быстро найти дубли?

Конечно, как и везде, есть ручной способ поиска. Но он не всегда эффективен, поэтому гораздо лучше сразу использовать для этого специальные инструменты. Самые популярные варианты — бесплатные сервисы от самих поисковиков:

Яндекс.Вебмастер

Если вы никогда не проверяли свой ресурс на дубли, скорее всего, многие из них уже отсканированы поисковиками. Тогда можно зайти в Вебмастер, перейти в раздел “Индексирование”, а потом нажать “Страницы в поиске”. Там нужно выбрать исключённые страницы и поставить фильтр на дубли. Так вы увидите копии, которые поиск уже нашёл и исключил из ранжирования.

Также с его помощью можно найти странички с одинаковыми метатегами. Это косвенно указывает на то, что и контент на них одинаковый. Для этого нужно зайти в “Индексирование” — “Заголовки и описания”.

Google Search Console

Так же, как и в Вебмастере, здесь можно увидеть копии, которые уже нашёл и проиндексировал поисковик. Найти их можно в разделе “Покрытие” на вкладке “Исключено”.

Но есть и другие программы для поиска копий. Вот несколько популярных:

Xenu Link Sleuth. Это бесплатная программа, которую нужно установить на свой компьютер. Основная её задача — поиск битых ссылок, но и с дублями она тоже справляется. Главный минус — программа есть только для Windows.
Apollon Guru. Бесплатный онлайн-сервис, в который можно добавить несколько ссылок на основные типовые страницы своего сайта и получить список их копий. За один раз получится проверить не больше пяти ссылок. Например, можно выбрать главную, страницу категории, карточку товара или услуги, новость или статью и т.д. Если в столбце “Код ответа сервера” есть ответ 200, значит вы нашли незакрытый дубль.
Screaming Frog SEO Spider. Программа выдаст список всех страниц ресурса и среди них можно найти те, у которых одинаковые метатеги. Её нужно скачать и установить на свой компьютер: версии есть и для Windows, и для Mac. Если на сайте меньше 500 страниц, его можно проанализировать бесплатно. Если больше — придётся купить лицензию.

Как убрать дубли страниц на сайте?

Есть несколько способов борьбы с дублированием, и выбор здесь зависит от многих факторов. Например, от того, насколько посещаемым был дубль. Ведь если вы давно не проверяли ресурс на наличие копий, некоторые из них могли стать довольно популярными. И если просто удалить их, то вы потеряете часть трафика. Поэтому здесь мы рассмотрим самые распространённые способы борьбы с дубликатами, но решение в каждом случае должно приниматься индивидуально.

Добавить директиву disallow в robots.txt

Robots.txt — это файл, где прописывается какая информация на сайте разрешена для индексации, а какая запрещена. Чаще всего такой способ используют для запрета индексации служебных страниц. Например, тех, где находятся личные данные клиентов или карта сайта. Но и показ дублей запрещать с его помощью тоже можно. Для того чтобы это сделать, нужно добавить в файл условие disallow.

Определить подходит ли вам такой способ, можно, если понять насколько много у вас дублей. Если их немного или большинство из них подчиняются одинаковым параметрам, то его вполне можно использовать. Что значит одинаковым параметрам? Например, вы хотите запретить отображать в поиске все странички из раздела /posts, потому что раньше вы переименовали этот раздел в /blog. Это вполне можно быстро сделать через robots.txt.
Использовать в коде элементы noindex и nofollow

Это элементы, которые дают возможность указать поисковику не индексировать страницу (noindex) или не переходить по ссылкам, которые на ней есть (nofollow). Их добавляют в код и всегда в тег head. С помощью элемента noindex можно закрыть от индексации не весь контент, а только его часть. Это может пригодиться, если дубли не полные, а частичные. Но такой способ сработает только в Яндексе.

Этот способ подходит для данных, которые уже проиндексированы поисковиками. Потому что если просто запретить их индексацию через файл robots.txt, они всё равно периодически могут всплывать в выдаче. Например, если на них ссылаются кто-то ещё.

Также не стоит прописывать элементы noindex и nofollow, а потом сразу же закрывать индексацию в robots.txt. Так поисковый робот просто не будет иметь доступа к страницам, следовательно, не сможет провести анализ кода и прочитать элементы. А значит ссылки на копии по-прежнему смогут попадаться в поисковиках.
Использовать тег canonical

Выше мы уже говорили о том, что для исключения дубликатов из ранжирования можно указать для поисковика основную страничку. Так вот это делается с помощью тега canonical. Его добавляют в код дубля в раздел head и тут же указывают адрес, по которому находится основная версия. В итоге весь накопленный вес копий будет передаваться именно ей.

Если содержимое существенно отличается, например, совпадает только один абзац текста, то тег не сработает. В этом случае система его просто проигнорирует.

В Wordpress для обозначения канонической страницы можно использовать специальные плагины (например, Canonical Link, Advance Canonical URL или AllinOneSEOPack). Для ресурсов на Битрикс сделать это сложнее: придётся поработать напрямую с кодом на языке PHP.
Добавить 301 редирект

Редирект — это перенаправление пользователя с одной странички на другую. То есть система даже не показывает ему дубль, а сразу переводит туда, куда нужно. Правильно настроить редиректы без навыков программирования довольно сложно, поэтому тут лучше довериться профессионалу.

Важно понимать, что из выдачи не пропадёт страница, с которой происходит редирект. И та, на которую ведёт редирект, только за счёт него в поисковике не появится. Но в целом этот способ подходит, когда на копиях уже накопилась какая-то статистика и просто так закрывать их от индексации нельзя.

Например, в нашей практике был случай, когда клиент просто закрыл целую ветку на сайте с помощью элемента noindex. Он сделал это по незнанию и не проверил её посещаемость, а она была третьей по популярности на ресурсе. Из-за этого было потеряно около 47 тысяч посещений. В этом случае обязательно нужно было настроить редиректы, и тогда этого удалось бы избежать.

Если вы решили, что делать с дублями страниц и остановились на редиректах, помните, что ими не стоит увлекаться. Если на ресурсе их слишком много, это может замедлить общую скорость его загрузки. А значит негативно повлиять и на его ранжирование.
Использовать директиву clean-param в файле robots.txt

В отличие от директивы disallow, которую чаще используют для закрытия служебной информации, clean-param обычно применяется для ссылок с UTM-метками. Директиву можно прописать в любом месте файла robots.txt.

Важно знать, что всё, что вы заблокируете через clean-param, поймёт только Яндекс. Google эту директиву не прочитает и не будет учитывать при индексации. Поэтому если вы решили бороться с копиями через robots.txt, то для Google всё равно придётся использовать disallow.
Обычное удаление дублей страниц

Ещё один вариант — просто удалять копии. Но его можно использовать далеко не всегда. Опять же это нельзя делать, когда странички уже накопили посещаемость. Плюс, если просто удалить разные варианты ссылок на главную (например, с дефисом, без защищённого протокола, без www и т.д.), то люди, которые будут искать ваш сайт именно так, просто увидят ошибку и не смогут попасть к вам на ресурс. Значит какую-то часть пользователей вы потеряете. Чтобы этого не произошло, лучше всё-таки настроить редиректы.

В заключение

Дублирование страниц — это то, что может напрямую повлиять на успешность SEO-продвижения вашего сайта. Поэтому обязательно проверьте свой ресурс на их наличие. Если они обнаружились, нельзя оставлять всё как есть: с ними обязательно нужно бороться. Способ, который для этого стоит выбрать, зависит от:

Ваших навыков программирования и возможностей привлечь профессионала;
Наличия накопленной статистики на копиях;
Поисковика, на который вы ориентируетесь (например, в Google способ может работать не так хорошо, как в Яндекс);
Количества самих дубликатов и т.д.

Поэтому перед тем, как закрыть дубли страниц, взвесьте все за и против каждого способа, и только потом приступайте к оптимизации сайта.