Индексация сайта
Под индексацией подразумевается занесение данных о веб-страницах сайта в индексную базу поисковых систем. Индексирование страницы осуществляется после её сканирования поисковым роботом и предшествует её попаданию в результаты поиска.
Что такое индексирование сайта?
Индексация (индексирование) сайта — процесс добавления информации о страницах сайта в индексную базу данных поисковых систем. Решение об индексировании той или иной страницы принимается при её обходе (сканировании) поисковым роботом. Также следует понимать, что индексация веб-страницы предшествует её попаданию в поисковую выдачу.
Что такое сканирование сайта?
Сканирование сайта — процесс обхода страниц сайта поисковыми роботами на соответствие SEO-факторам.
Зачем поисковые системы индексируют веб-страницы?
Все результаты поиска по тому или иному запросу формируются из индексной базы данных поисковой системы, которая содержит копии предварительно просканированных страниц. Таким образом, индексация нужна для того, чтобы ускорить формирование поисковой выдачи на основании имеющихся в ней данных.
Зачем настраивать индексацию и сканирование?
Настраивать и контролировать процессы индексирования и сканирования следует для того, чтобы:
- ускорить попадание в выдачу нужных страниц,
- улучшить ранжирование обновлённых страниц,
- исключить попадание в выдачу ненужных страниц,
- снизить создаваемую роботами нагрузку на сервер,
- экономить ресурсы поисковых систем (краулинговый бюджет).
Управление индексацией позволит ускорить попадание и продвижение важных страниц сайта в результатах поиска, в то же время при попадании в индекс неактуальных страниц, дублей, страниц со спамным контентом возможна пессимизация сайта в поисковой выдаче.
Как проверить индексацию сайта?
Есть ряд способов узнать о том, какие страницы сайта проиндексированы, а какие — нет:
- Сервисы для веб-мастеров поисковых систем
- Поисковые системы предоставляют веб-мастерам не только информацию об общем количестве проиндексированных и непроиндексированных страниц, но также сообщают о причинах исключения или непопадания страниц в индекс.
- Поисковый оператор
site:
-
Для проверки в поисковой строке Google или Яндекс введите
site:[доменное имя сайта]
, в результатах поиска будут присутствовать только страницы указанного сайта. Обратите внимание на общее число результатов — это и есть количество проиндексированных страниц. - Специальные плагины для браузера
-
Например, плагин для браузера RDS Bar будет отображать число, которое выводится в результатах поиска при применении оператора
site:
. - Специальные программы и сервисы
- Чтобы проверить индексацию сайта по ключевым словам, можно воспользоваться специальными сервисами (allpositions.ru, topvisor.ru) или программами (Key Collector), а также сервисами поисковых систем.
Сколько времени занимает индексация сайта?
Индексирование веб-страницы в Google может занимать от нескольких минут до одной недели, в Яндекс — от недели до четырех недель. Скорость зависит от ряда факторов и может отличаться.
Как часто происходит сканирование сайта?
Поисковые боты постоянно равномерно сканируют страницы сайта, обновляя их в индексе: Google обновляет индекс в постоянном режиме, Яндекс — во время апдейтов поисковой базы, примерно раз в три дня. Googlebot чаще остальных сканирует важные страницы, чтобы учитывать важные изменения на них при ранжировании. К важным в глазах поисковых систем страницам относятся главная и страницы высокого уровня в зависимости от их содержания. Такие страницы сканируются чаще остальных – каждые несколько дней или даже чаще, в зависимости от масштабов и частоты обновления сайта.
Что затрудняет индексацию сайта?
Мешать поисковым роботам быстро и правильно индексировать сайт могут следующие факторы:
- Большое количество страниц на сайте.
- Большое количество «битых» (ведущих на несуществующие страницы) ссылок.
- Дубликаты страниц (пример: seoportal.net и www.seoportal.net).
- Некорректная обработка несуществующих страниц.
- Некорректные ответы сервера (HTTP-статусы).
- Ошибки в файле robots.txt или его отсутствие.
- Ошибки в файле Sitemap или его отсутствие.
- Неправильное применение мета-тега Robots.
- Санкции поисковых систем.
Как ускорить индексирование веб-страниц?
Быстрому и корректному индексированию способствуют:
- установленные счетчики веб-аналитики Яндекс.Метрика и Google Аналитика,
- полноценный динамический файл Sitemap в формате XML, о котором знают поисковые системы,
- грамотно настроенный файл robots.txt,
- склейка дублей веб-страниц,
- грамотная внешняя и внутренняя перелинковка.
Кроме этого ускорить индексирование новых или обновлённых страниц сайта можно с помощью соответствующих возможностей в сервисах поисковых систем:
Как запретить индексирование веб-страниц?
Запретить индексацию можно посредством:
- запрещающих сканирование директив в файле robots.txt,
- мета-тега robots со значением
noindex
, - склейки дубликатов страниц посредством редиректов,
- тега
<link>
с атрибутомrel="canonical"
и ссылкой на канонический URL в атрибутеhref
.
Как удалить страницу из индекса?
Чтобы поисковая система самостоятельно удалила страницу из индексной базы можно использовать следующие способы:
- Физически удалить страницу, чтобы при её запросе сервер возвращал статус 404 Not Found.
- Использовать на странице мета-тег Robots с директивой
noindex
.
Ускорить удаление страницы из индекса можно в сервисах поисковых систем: