Как и зачем чистить сайт от мусора
Мнению, что интернет — большая помойка, к сожалению, уже не один десяток лет. Но несмотря на внешний хаос (с точки зрения обычных пользователей), всемирная сеть дает массу интересной информации. И само собой, каждый сайт тоже должен к этому стремиться, то есть предоставлять максимум пользы и сводить ненужный контент на своих страницах к нулю. В противном случае SEO-продвижение проекта может быть затруднено: поисковики запоминают и рассказывают пользователям о сайте буквально всё. Сегодня мы поговорим о том, какие части вашего сайта не должны появляться в выдаче и почему.
Чем опасен “мусор” на сайте
Прежде всего, пустые и дублирующиеся страницы, неуникальный контент и тому подобное влияет на ранжирование в выдаче: поисковики снижают позиции из-за “мусора” (пессимизируют сайт), потому что он не информативен для пользователей. Тратя время на анализ таких разделов (их еще называют “мертвыми” страницами или “зомби”) алгоритмы могут не проиндексировать важные страницы или сделать это неправильно.
Самое опасное, что из-за избыточной массы страниц на сайте в поисковой системе по конкретному запросу может продвигаться нерелевантный контент с вашего ресурса. Ну а это уже приводит к негативу со стороны пользователей: высокому проценту отказов, снижению кликабельности, сокращению времени дочитывания и пр.
Кроме этого, большое число ненужных страниц уменьшает ссылочный вес нужных разделов в структуре сайта, потому что пользователи по ошибке или незнанию могут делиться именно дублями. К слову, чем чаще контент повторяется на сайте, тем меньше в нем уникальности, а значит, риски попадания под фильтры поисковиков возрастают.
В общем, “мусор” не приносит трафика, не создает добавочной ценности, ухудшает поведенческие факторы и обнуляет информативность вашего ресурса. А это значит только одно: всё ненужное с сайта надо оперативно удалять, чтобы в перспективе экономить краулинговый бюджет, повышать авторитет домена и снижать опасность каннибализации по значимым ключевикам.
Когда и что надо удалять с сайта
Начнем от противного и поговорим сначала о том, что можно не убирать с сайта, но лучше скрывать от индексирования. Да-да, не всегда первоначальный “мусор” на сайте оказывается чем-то лишним и подлежащим удалению.
- Многие из страниц и инструментов могут быть закрыты в служебном файле Robots.txt. Например, есть блоки CMS (в любой админке), которые нужны для работы сайта, но им не надо попадать под индексацию поисковиками. Это могут быть формы обратной связи, заявки и квизы, обновление данных в личном кабинете, разные стадии оформления заказа и т.д.
Так выглядит служебный файл при работе с Bitrix
- Технические и служебные страницы тоже удалять с сайта не обязательно. Обычно они появляются, когда сайт только начали создавать, и на нем много шаблонов и “рыбных” текстов или блоков. Вы также можете закрывать эти страницы от индекса в Robots.txt. Например, если надо скрыть отзывы клиентов, которые используются в составе одного блока на сайте, но в рамках технической реализации имеют отдельные страницы (иллюстрация ниже), можно поступить так:
Disallow: /reviews/
Disallow: /clients/
- Другие ситуации, требующие особого подхода, — это страницы пагинации (с порядковой нумерацией) и различные динамические параметры в URL, возникающие, например, при организации сортировки и фильтрации на сайте или при добавлении UTM-меток. Всё это тоже может попасть в выдачу, если индексируется. GET-параметры урлов можно закрывать в Robots.txt с помощью Disallow или ставить правило Сlean-param, а с пагинацией помогает справиться выбор одной канонической страницы (простравление rel=canonical).
- Если на сайте много документов в формате PDF, Word или Excel, их тоже надо отдельно отслеживать в индексе. Такое актуально, например, для юридических компаний или оптовых магазинов с длинными прайс-листами. Если вам не нужны эти бумаги в выдаче (а тем более, если они откровенно мешают ранжированию и тратят краулинговый бюджет), закрывайте их от поисковиков в Robots.txt.
Совет: Если в документах содержится очень ценная информация для пользователей, можно перенести ее в блог, чтобы полезный контент был всегда на виду и спокойно индексировался. Ну а сами файлы при этом оставляйте на сайте “спрятанными”.
Теперь поговорим о более частых ситуациях, когда решение сеошника должно быть более радикальным: страница либо дорабатывается, либо удаляется:
- Прежде всего, существует понятие малоинформативной, малоценной или маловостребованной страницы. Подробнее об этом можно почитать, например, у “Яндекса”. Такие страницы почти пустые (или с шаблонными блоками) и в большинстве своем не полезны для пользователей. Часто поисковые системы выкидывают их из индексации сами. Если вы не готовы их удалять, надо заняться дополнением страниц, причем за счет актуального и интересного контента, а не посредством переспама с ключевиками.
- К “мусору” можно отнести страницы с устаревшей информацией. Например, с рассказом про региональные филиалы компании, которые уже закрыты, или про новинки в ассортименте столетней давности. Если вы не можете актуализировать такой контент, смело удаляйте страницы.
- Также надо обязательно работать с дублями. Они бывают разных типов. Например, дубль сайта может возникнуть из-за неработающих или отсутствующих редиректов. Тогда страница будет индексироваться в поисковике в разных вариантах, хотя по факту останется одна. Сравните несколько дублей ниже: с протоколами http и https, c www и без, со слешем на конце урла и без него.

Починить это можно, настроив редиректы в файле .htaccess.
Бывают и другие дубли: например, несколько разделов на сайте рассказывают об одном и том же или страница повторяется из-за технической ошибки (особенностей CMS). Тогда вы можете удалить лишнее и поставить редиректы 301 для переадресации.
- Далее на очереди к удалению — страницы с неуникальными текстами. Такая ситуация необязательно связана с вашим плагиатом у конкурентов или обманом нанятого копирайтера. К примеру, контент о работе компании может естественным образом повторяться на страницах портфолио, новостного блога и в отзывах клиентов. Регулярно проверяйте сайт на уникальность в специальных сервисах и доводите тексты до нужных значений.
Обратите внимание: Если первоисточником текста на 100% являетесь вы (то есть на вашем сайте он появился раньше), но сервис показывает, что его у вас кто-то полностью украл, можно не заниматься уникализацией. Современные алгоритмы поисковых систем способны проанализировать, что ваш контент является оригиналом.
- Иногда в индексе встречаются страницы с ошибкой 404. Прежде всего, вам надо разобраться, почему это произошло. Если можете, поставьте с этой страницы редирект 301, а если нет — удаляйте битую ссылку со всех разделов сайта, включая главную, посадочные, каталог, меню, навигацию и т.д. Дальше вам остается только ждать, когда страница пропадет из поисковой выдачи. Также можно ускорить этот процесс, если запросить удаление страницы из выдачи у поисковой системы.
Так, например, выглядит инструмент удаления контента в Google Search Console
Совет: Блокировка индексирования возможна не только через файл Robots.txt, но и посредством добавления атрибута (директивы) noindex в HTML-код. Этот способ также помогает закрыть от поисковика конкретную часть текста на странице.
Как найти мусорные страницы на сайте
- Оператор поиска site: поможет найти информацию по конкретному проиндексированному ресурсу и его поддоменам. Достаточно вбить в поисковой строке название своего сайта после оператора и посмотреть выдачу как в Google, так и в “Яндекс”. Так вы можете посмотреть на все отображаемые страницы и закрыть или удалить то, что не нужно.
- Панели “Яндекс.Вебмастер” и Google Search Console тоже могут вам помочь. В частности, “Яндекс” показывает, когда страница попала в индекс и когда выпала (и по какой причине). Google также отображает, почему страницы не индексируются.
- Существуют также отдельные плагины для чистки сайтов. Например, Clearfy для WordPress. Он платный, но зато позволяет сразу работать с Robots.txt, перенаправлять на https, закрывать от индекса страницы пагинации и т.д.
Мы в LZ.Media являемся адептами ручной, а не автоматизированной чистки сайта. Для оптимизации этого процесса у нас даже есть внутренний чек-лист. Мы всегда отслеживаем “мусор” и индексацию страниц во время техаудита: ежемесячно нашими SEO-специалистами проверяются самые важные пункты, а раз в квартал — осуществляется полный анализ клиентского сайта.
Остались вопросы?
Оставьте заявку, чтобы получить консультацию