Компьютерология - Информационный ресурс

Блог об настройках плагинов WordPress и поисковой оптимизаций для начинающих вебмастеров. Поисковый индекс Как быстро проиндексировать страницу в яндексе

Здравствуйте, уважаемые читатели сайта сайт. Сегодня я расскажу вам как найти и исправить возможные проблемы с индексированием вашего сайта. Рассмотрим три основных момента.

  1. Робот должен индексировать нужные страницы сайта с ;
  2. Эти страницы должны индексироваться быстро;
  3. Робот не должен посещать ненужные страницы сайта;

Кажется все довольно просто. Но на самом деле большинство вебмастеров сталкиваются с одними и теми же проблемами при настройке индексирования. Давайте посмотрим на них внимательно.

На текущий момент в большинстве случаев если речь идет о новой странице сайта в поисковую выдачу она появится в течение нескольких десятков минут. Если речь об уже проиндексированных страницах, то это 3-5 дней .

В итоге, чтобы ваш сайт посещался быстро необходимо помнить о трех правилах:

  1. Во-первых, у вас должен быть корректный и регулярно обновляемый файл sitemap;
  2. Во-вторых, не использовать директиву Crawl-delay просто если вам хочется. Прямо сейчас обязательно зайдите в ваш robots.txt и проверьте есть ли такая директива. Если она установлена задумайтесь, действительно ли она вам нужна.
  3. В-третьих, используйте "переобход страниц" для посещения роботом наиболее важных страниц вашего сайта с новой важной страницей.

Избавляем робота от ненужных страниц сайта

Когда робот начинает посещать ваш ресурс, часто это не всегда положительно влияет на индексирование хороших страниц сайта. Представим ситуацию, допустим, робот совершает 5 запросов в секунду к вашему ресурсу. Кажется отличный результат, но какой смысл из этих пяти посещений в секунду если все они относятся к служебным страницам вашего сайта или дублям и робот совсем не уделяет внимания действительно важным страницам. Об этом наш следующий раздел, как не индексировать ненужные страницы.

  1. Используем раздел Яндекс-вебмастер и статистику обхода
  2. Получаем адреса страниц, которые робот индексировать не должен
  3. Составляем корректный файл robots.txt

Давайте посмотрим на инструмент "Статистика обхода", выглядит он следующим образом. Здесь есть также графики. Нас интересует чуть-чуть пролистать вниз страницу кнопочка "все страницы". Вы увидите все, что посещал робот за последние дни.

Среди этих страниц если есть какие-то служебные страницы, то их нужно запрещать в файле robots.txt. Что именно нужно запрещать давайте по пунктам.

  1. Во первых, как я говорил ранее, страницы фильтрации , подборов товаров, сортировки нужно запрещать в файле robots.txt.
  2. Во-вторых, обязательно запрещаем страницы различных действий . Например, добавить в сравнение, добавить в избранное, добавить в корзину. Саму страницу с корзиной также запрещаем.
  3. В-третьих, запрещаем к обходу все служебные разделы такие как поиск по сайту, админку вашего ресурса, разделы с данными пользователей. Например, информация о доставке, номера телефонов и прочее также запрещаем в файле robots.txt.
  4. И страницы с идентификаторами , например с utm метками также стоит запретить к обходу в файле robots.txt с помощью директивы Clean-param.

Если вы столкнетесь с вопросом, а нужно ли запрещать или нужно ли открывать эту страницу к обходу, ответьте себе на простой вопрос: нужна ли эта страница пользователям поисковой системы? Если эта страница не должна находиться в поиске по запросам, то ее можно запретить.

И небольшой практический кейс, я надеюсь он вас замотивирует. Смотрите, на одном из ресурсов робот совершает практически тысячи обращений в день к страницам с редиректом. На самом деле, страницы перенаправления это были страницы добавления в корзину.

Вносим изменения в файл robots.txt и видно на графике, что обращение к таким страницам практически сошли на нет. При этом, сразу положительная динамика - обход нужных страниц этой странице степи кодом 200 резко возрос.

- Дубли страниц на сайте, как их найти и что с ними делать

И тут вас поджидает другая опасность - это дубли страниц . Под дублями мы понимаем несколько страниц одного сайта, которые доступны по разным адресам, но при этом содержат абсолютно идентичный контент. Основная опасность дублей заключается в том, что при их наличии может смениться в поисковой выдаче. Может попасть страница по ненужному вам адресу, конкурировать с основной страницей, которую вы продвигаете по каким-либо запросам. Плюс ко всему большое количество дублирующих страниц затрудняет обход сайта индексирующим роботом. В общем, проблем они приносят кучу.

Я думаю, что почти все вебмастера уверены, что именно на их ресурсе нет никаких дублирующих страниц. Хочу немножко вас расстроить. На самом деле дубли есть практически на всех сайтах в рунете. ? Об этом у меня есть подробная статья, прочитав которую, у вас не останется ни одного вопроса.

- Проверка кода ответа сервера

Помимо файла robots.txt хочется вам еще рассказать о корректных http кодах ответа. Тоже кажется вещи, которые говорили уже неоднократно. Сам по себе http код ответа это определенный статус страницы для индексирующего робота.

  1. http-200 - страницу можно индексировать и включать поиск.
  2. http-404 - значит страница удалена.
  3. http-301 - страница перенаправлена.
  4. http-503 - временно недоступна.

В чем плюс использования инструмента корректных http кодов:

  1. Во-первых, у вас никогда не будет различных битых ссылок на ваш ресурс, то есть тех ссылок, которые ведут на страницы, не отвечающие кодом ответа 200. Если страница не существует значит код ответа 404 это робот поймет.
  2. Во вторых, поможет роботу с планированием обхода действительно нужных страниц, которые отвечают кодом ответа 200.
  3. И в-третьих, позволит избежать попадания различного мусора в поисковую выдачу.

Об этом как раз следующий скрин также из практики. Во время недоступности ресурса и проведения технических работ робот получает заглушку с http кодом ответа 200.Вот как раз описание к этой заглушке вы видите в результатах поиска.

Поскольку страница отвечает кодом ответа 200 они попадают выдачу. Естественно, с таким контентом страницы не могут находиться и показывать по каким-либо запросам. В данном случае правильной настройкой будет http ответа 503. При кратковременной недоступности страницы или ресурса этот код ответа позволит избежать исключения страниц из результатов поиска.

Вот ситуации, когда ваши важные и нужные страницы вашего ресурса становятся недоступными для нашего робота, например, отвечают кодом 503 или 404 либо вместо них возвращается в об эту заглушку.

Такие ситуации можно отследить с помощью инструмента «важные страницы» . Добавьте в него те страницы, которые приносят наибольший трафик на ваш ресурс. Настройки уведомления на почту и либо в сервис и вы будете получать информацию о том, что происходит с данной страницей. Какой у нее код ответа, какой у нее заголовок, когда она посещалась и какой статус в поисковой выдаче.


Проверить корректность возврата того или иного кода ответа можно с помощью соответствующего инструмента в Яндекс-вебмастере (тут ). В данном случае проверяем код ответа несуществующих страниц. Я придумал страницу и загнал ее в инструмент, нажал кнопочку проверить и получил 404 ответ.

Здесь все в порядке, так как страница была недоступна она корректно ответила 404 кодом и в поиск она уже не попадет. В результате чего, для того, чтобы ограничить посещение роботам не нужных страниц сайта, активно используйте инструмент статистику обхода, вносите изменения в файл robots.txt и следите, чтобы страницы возвращали корректный http код ответа.

- Подводим итог

Мы с вами отдали роботу корректные странице сайта с контентом. Мы добились того, что это индексируется быстро. Запретили роботу индексировать не нужные страницы. Все эти три большие группы задач связаны между собой . То есть, если не ограничивать роботу индексирование служебных страниц, то, скорее всего, у него останется меньше времени на индексирование нужных страниц сайта.

Если робот будет получать контент нужных страниц не в полном объеме, он не будет включать эти страницы в поисковую выдачу быстро. То есть над индексированием вашего ресурса нужно работать в комплексе, над всеми этими тремя задачами. И в этом случае вы добьетесь определенных успехов для того, чтобы нужные страницы быстро попадали в поисковую выдачу.

Официальные ответы Яндекса

В индекс попали страницы в верхнем регистре при том, что сайт такого рода страниц не содержит. Если страницы попали в верхнем регистре, это скорее всего робот обнаружил ссылки на них где-то в интернете. Проверьте сначала ваш сайт, скорее всего где-то в интернете установлена некорректная ссылка. Робот пришел, увидел ее и начал скачивать страницу в верхнем регистре. Для них, для таких страниц лучше использовать 301 редирект.

Sitemap имеет несколько страниц - это нормально? Если речь едет о sitemap, то есть специальный формат sitemap, в котором можно указывать ссылки на другие файлы sitemap, то конечно нормально.

Если разместить ссылки на все разделы каталога в нижнюю часть сайта, который отображается на всех страницах, это поможет индексации или навредит? На самом деле делать этого совсем не нужно, то есть если это не нужно посетителям вашего сайта, то вносить специально это не нужно. Достаточно просто файла sitemap. Робот узнает о наличии всех этих страниц, добавит их в свою базу.

Нужно ли в sitemap указать периодичность обновления? Файлом sitemap можно передавать дополнительную информацию для индексирующего робота. Помимо самих адресов также наш робот понимает еще несколько тегов. Во-первых, это частота обновления, то есть периодичность обновления. Это приоритет при обходе и дата последнего изменения. Всю эту информацию из файла sitemap он забирает при обработке файла и добавляет в свою базу и использует в дальнейшем для корректировки политик обхода.

Можно ли обойтись без sitemap? Да, следите, чтобы на вашем сайте была прозрачная навигация, чтобы на любую внутреннюю страницу вели доступные ссылки. Но учитывайте, что если это новый ресурс (от автора: о том как запустить новый сайт читайте ) и, например, какая-то страничка находится глубоко на вашем сайте, например, в 5-10 кликов, то роботу потребуется достаточно много времени, чтобы узнать о ее наличии. Сначала скачать главную страницу сайта, достать ссылки, потом опять скачать те страницы, о которых он узнал и так далее. Файл sitemap позволяет передать роботу информацию обо всех страницах сразу.

Робот делает 700 тысяч запросов в сутки по несуществующим страницам. Прежде всего нужно понять откуда появились такие несуществующие страницы. Возможно некорректно используются относительные ссылки на вашем сайте, либо какой-то раздел удалили окончательно с сайта и робот продолжает все равно проверять такие страницы. В таком случае стоит их просто запретить в файле robots.txt. В течение 12 часов робот перестанет обращаться к таким страницам.

Если служебные страницы проиндексированы, как можно убрать их с поиска. Чтобы убрать страницы из результатов поиска также используйте robots.txt. То есть не имеет значение установили вы запрет при создании вашего сайта, либо уже когда запустили ресурс. Страница пропадет из выдачи в течение недели.

Автогенерируемый sitemap это хорошо или нет? В большинстве случаев все sitemap генерации автоматически, поэтому можно сказать, что это наверное хорошо. Вам не нужно делать что-то своими руками и можете уделить внимание чему-то другому.

Как будет индексироваться страница, если ее сделать канонической саму на себя. Если атрибут canonical ведет на саму же страницу? Такая страница считается канонической? Она будет нормально проиндексирована и включена в поисковую выдачу, то есть использовать такой прием вполне корректно.

Что означает статус "неканоническая"? З начит на странице установлен атрибут canonical, который ведет на другую страницу вашего сайта. Поэтому данная страница в поиск попасть не сможет. Откройте исходный код страницы, сделайте поиск, посмотрите куда ведет canonical и проверяйте каноническую страницу в поиске.

Что правильнее для страницы-корзины запрет в robots.txt или noindex? Если страница запрещена с помощью метода noindex, робот периодически будет посещать ее и проверять наличие данного запрета. Чтобы робот этого не делал, лучше используйте запрет в файле robots.txt.


До встречи! Успевайте всё и всегда на страницах блога сайт

Помоги проекту - подпишись на наш Яндекс.Дзен канал!


Индексация сайта - это процесс поиска, сбора, обработки и добавления сведений о сайте в базу данных поисковых систем.

Больше видео на нашем канале - изучайте интернет-маркетинг с SEMANTICA

Индексация сайта значит, что робот поисковой системы посещает ресурс и его страницы, изучает контент и заносит его в базу данных.Впоследствии эта информация выдается по ключевым запросам. То есть, пользователи сети вводят в строку поиска запрос и получают на него ответ в виде списка проиндексированных страниц.

Если говорить простым языком, получится приблизительно так: весь интернет - это огромная библиотека. В любой уважающей себя библиотеке есть каталог, который облегчает поиск нужной информации. В середине 90-х годов прошлого века, вся индексация сводилась к такой каталогизации. находили на сайтах ключевые слова и формировали из них базу данных.

Сегодня боты собирают и анализируют информацию по нескольким параметрам (ошибки, уникальность, полезность, доступность и проч.) прежде, чем внести ее в поисковой системы.

Алгоритмы работы поисковых роботов постоянно обновляются и становятся все сложнее. Базы данных содержат огромное количество информации, несмотря на это поиск нужных сведений не занимает много времени. Это и есть пример качественной индексации.

Если сайт не прошел индексацию, то информация до пользователей может и не дойти.

Как индексирует сайты Гугл и Яндекс

Яндекс и Гугл, пожалуй, самые популярные поисковики в России. Чтобы поисковые системы проиндексировали сайт, о нем нужно сообщить. Сделать это можно двумя способами:

  1. Добавить сайт на индексацию при помощи ссылок на других ресурсах в интернете - этот способ считается оптимальным, так как страницы, найденные таким путем, робот считает полезными и их индексирование проходит быстрее, от 12 часов до двух недель.
  2. Отправить сайт на индексацию путем заполнения специальной формы поисковой системы вручную с использованием сервисов Яндекс.Вебмастер, Google Webmaster Tools, Bing Webmaster Tools и др.

Второй способ медленнее, сайт встает в очередь и индексируется в течение двух недель или больше.

В среднем, новые сайты и страницы проходят индексацию за 1–2 недели.

Считается, что Гугл индексирует сайты быстрее. Это происходит потому, что поисковая система Google индексирует все страницы - и полезные, и неполезные. Однако в ранжирование попадает только качественный контент.

Яндекс работает медленнее, но индексирует полезные материалы и сразу исключает из поиска все мусорные страницы.

Индексирование сайта происходит так:

  • поисковый робот находит портал и изучает его содержимое;
  • полученная информация заносится в базу данных;
  • примерно через две недели материал, успешно прошедший индексацию, появится в выдаче по запросу.

Есть 3 способа проверки индексации сайта и его страниц в Гугл и Яндексе:

  1. при помощи инструментов для вебмастеров - google.com/webmasters или webmaster.yandex.ru;
  2. при помощи ввода специальных команд в поисковую строку, команда для Яндекс будет выглядеть так: host: имя сайта+домен первого уровня; а для Гугл - site: имя сайта+домен;
  3. с помощью специальных автоматических сервисов.

Проверяем индексацию

Это можно сделать используя:

  1. операторы поисковых систем - смотрим в справке или ;
  2. услуги специальных сервисов, например rds бар ;

Как ускорить индексацию сайта

От того, насколько быстро роботы проведут индексирование, зависит скорость появления нового материала в поисковой выдаче, тем быстрее на сайт придет целевая аудитория.

Для ускорения индексации поисковыми системами нужно соблюсти несколько рекомендаций.

  1. Добавить сайт в поисковую систему.
  2. Регулярно наполнять проект уникальным и полезным контентом.
  3. Навигация по сайту должна быть удобной, доступ на страницы не длиннее, чем в 3 клика от главной.
  4. Размещать ресурс на быстром и надежном хостинге.
  5. Правильно настроить robots.txt: устранить ненужные запреты, закрыть от индексации служебные страницы.
  6. Проверить на наличие ошибок, количество ключевых слов.
  7. Сделать внутреннюю перелинковку (ссылки на другие страницы).
  8. Разместить ссылки на статьи в социальных сетях, социальных закладках.
  9. Создать карту сайта, можно даже две, - для посетителей и для роботов.

Как закрыть сайт от индексации

Закрыть сайт от индексации - запретить поисковым роботам доступ к сайту, к некоторым его страницам, части текста или изображению. Обычно это делается для того, чтобы скрыть от публичного доступа секретную информацию, технические страницы, сайты на уровне разработки, дублированные страницы и т. п.

Сделать это можно несколькими способами:

  • При помощи robots.txt можно запретить индексацию сайта или страницы. Для этого в корне веб-сайта создается текстовый документ, в котором прописываются правила для роботов поисковых систем. Эти правила состоят из двух частей: первая часть (User-agent) указывает на адресата, а вторая (Disallow) запрещает индексацию какого-либо объекта.
    Например, запрет индексации всего сайта для всех поисковых ботов выглядит так:

User-agent: *

Disallow: /

  • При помощи мета-тега robots, что считается наиболее правильным для закрытия одной страницы от индексирования. При помощи тегов noindex и nofollow можно запретить роботам любых поисковых систем индексировать сайт, страницу или часть текста.

Запись для запрета индексации всего документа будет выглядеть так:

Можно создать запрет для конкретного робота:

На что влияет индексация при продвижении

Благодаря индексации сайты попадают в поисковую систему. Чем чаще обновляется контент, тем быстрее это происходит, так как боты чаще приходят на сайт. Это приводит к более высокой позиции при выдаче на запрос.

Индексация сайта в поисковых системах дает приток посетителей и способствует развитию проекта.

Кроме контента, роботы оценивают посещаемость и поведение посетителей. На основании этих факторов они делают выводы о полезности ресурса, чаще посещают сайт, что поднимает на более высокую позицию в поисковой выдаче. Следовательно, трафик снова увеличивается.

Индексация - это важный процесс для продвижения проектов. Чтобы индексирование прошло успешно, поисковые роботы должны убедиться в полезности информации.

Алгоритмы, по которым работают поисковые машины, постоянно меняются и усложняются. Цель индексации - внесение информации в базу данных поисковых систем.

Для молодого сайта особо важна быстрая индексация в поисковых системах. Потому что у него ещё нет определенного веса (или «траста»). Особенно важно в первые месяцы жизни сайта его регулярно обновлять. Контент также должен быть высокого качества.

Быстрая индексация нового сайта в Яндексе

Для того, чтобы ваш новый сайт быстро проиндексировался в Яндексе, необходимо добавить его в Яндекс Вебмастер. Далее выбрать блок «Индексация» -> «Переобход страниц» (см. рис).

Переобход страниц в Яндекс Вебмастер

Для молодого сайта обязательно включать и главную страницу в этот список. Часты случаи, когда робот заходит на главную страницу и индексирует все внутренние ссылки с неё. Таким способом можно проиндексировать намного больше, чем 20 страниц.

Быстрая индексация сайта в Гугле

Аналогично с Яндексом, для ускорения индексации нового сайта в Google, его необходимо добавить в Гугл Вебмастер (Google Search Console). Нужно выбрать вкладку «Скинрование» -> «Посмотреть как GoogleBot».

Функция Посмотреть как ГуглБот

И в открывшейся форме вставить адрес нужной страницы, нажать «Сканирование». После этого у вас появится результат сканирования страницы и появится волшебная кнопка «Запросить индексирование».

Функционал Запросить индексирование

Нажмите на кнопку и увидите примерно такое окно:

Как проиндексировать сайт в Гугл

Здесь обязательно нужно выбрать «сканировать этот URL и прямые ссылки». В этом случае робот попытается пробежаться по всем внутренним ссылкам на странице, которую вы указали. С большой долей вероятности они все войдут в индекс Google с максимально возможной скоростью!

Индексация нового сайта на старом домене

В данном случае задача не такая тривиальная, как кажется. На доменах с историей зачастую бывает сложно проиндексировать новый сайт. Этот процесс может занимать недели или месяцы. Это зависит от истории домена: были ли на него ранее наложены санкции и какие.

Схема действий в этом случае проста:

  • Добавить сайт в вебмастер Яндекса и Гугла
  • Запросить переиндексацию через соответствующий функционал
  • Подождать 2-3 апдейта.
  • Если ничего не изменилось — писать в поддержку и решать этот вопрос в индивидуальном порядке.

Методы ускорения индексации молодого сайта

Кроме методов, которые я указал выше, есть ещё несколько работающих:

  1. Расшаривание материала в социальных сетях . Рекомендую использовать следующие: Вконтакте, Facebook, Twitter, Google+ (несмотря на то, что соцсеть гугла фактически мертва, она помогает ускорить индексацию новых страниц)
  2. Регулярное обновление сайта . Со временем у сайта набирается статистика публикации новых материалов, она помогает индексировать новые страницы. Регулярно обновляйтесь и, может быть, вам удастся «прикормить быстробота» (в этом случае индексация новых страниц будет занимать 1-10 минут).
  3. Новостным сайтам: войти в Яндекс Новости . Это не так сложно, как может показаться, но эффект будет потрясающий. На всех сайтах из Яндекс Новостей живет быстробот.
  4. Грамотная внутренняя структура сайта . Обязательно используйте перелинковку, ТОП материалы и т.д. Увеличение числа внутренних ссылок на странице (в разумных пределах) также позволит ускорить индексацию

Быстрая индексация новых страниц старого сайта

Вопрос-ответ по индексации молодых сайтов

У вас есть вопросы по индексации молодых сайтов? Задайте их в комментариях!

В: Закрывать ли новый сайт от индексации?
О: Я рекомендую не открывать сайт для поисковых роботов, пока он не будет заполнен стартовым контентом. Как показывает моя практика, на переиндексацию существующих страниц уходит намного больше времени, чем на индексацию новых.

В: Сколько времени нужно яндексу для индексации нового сайта?
О: В среднем, это 1-2 апдейта (от 1 до 3 недель). Но ситуации могут быть разными.

В: Какие могут быть проблемы с индексацией молодого сайта?
О: Наверное, главная проблема — плохой контент. Именно по этой причине сайт может не проиндексироваться. Ещё бывали случаи, когда выкатывался молодой, но крупный сайт с тысячами страниц. У поиска ещё живы воспоминания о дорвеях, поэтому к молодым сайтам с тысячами страниц есть «особое отношение».

В: Со скольки страниц открывать к индексации новый сайт и как часто его обновлять?
О: Вы можете открыть к индексации сайт и из 1 страницы. Важно придерживаться простого правила: сразу не размещать на сайте тысячи страниц, т.к. это может быть расценено как поисковой спам, и регулярно добавлять новые материалы на сайт. Пусть по 1 материалу в 3 дня, но регулярно! Это очень важно!

В: Как часто Яндекс индексирует сайты?
О: По официальной информации Яндекса частота индексации может быть от 2 дней до нескольких недель. А про методы ускорения написано выше.

Если есть проблемы с индексацией — в первую очередь надо проверить robots.txt и sitemap.xml.

Любая поисковая система имеет объемную базу данных, куда вносит все сайты и новые страницы. Эта база называется «индекс». Пока робот не обойдет html-документ, не проанализирует его и не внесет в индекс, он не появится в поисковой выдаче. Попасть на него можно будет только по ссылке.

Что значит «индексация»

Лучше, чем спец Яндекса по индексации, вам об этом не расскажет никто:

Индексация — это процесс, в ходе которого страницы сайта обходит поисковый робот и включает (либо же не включает) эти страницы в индекс поисковой системы. Поисковый бот сканирует весь контент, проводит семантический анализ текстового содержимого, качество ссылок, аудио- и видеофайлов. На основе всего этого поисковик делает выводы и вносит сайт в ранжирование.

Пока сайт вне индекса, о нем никто не узнает, кроме тех, кому вы можете раздать прямые ссылки. То есть ресурс доступен для просмотра, но в поисковой системе его нет.

Для чего вообще нужен индекс

Сайт должен попасть в видимость, чтобы продвигаться, расти и развиваться. Веб-ресурс, который не появляется ни в одной ПС, бесполезен и не несет пользы ни пользователям, ни его владельцу.

Вообще, вот полное видео со школы вебмастеров Яндекса, если посмотрите его полностью — станете практически спецом в вопросе индексации:

От чего зависит скорость индексации

Основные пункты, от которых зависит, насколько быстро ваш сайт может попасть в область внимания поисковых роботов:

  • Возраст домена (чем старше доменное имя, тем более к нему благосклонны боты).
  • Хостинг (ПС совершенно не любят и часто игнорируют бесплатные хостинги).
  • CMS, чистота и валидность кода.
  • Скорость обновления страниц.

Что такое краулинговый бюджет

У каждого сайта есть краулинговый бюджет — то есть количество страниц, больше которого в индекс попасть не может. Если КБ сайта — 1000 страниц, то даже если у вас их десять тысяч, в индексе будет лишь тысяча. Размер этого бюджета зависит от того, насколько ваш сайт авторитетный и полезный. И если у вас проблема такого характера, что страницы не попадают в индекс, то как вариант, вам нужно, как бы это банально ни звучало, улучшать сайт!

Индексация сайта

Создавая новый сайт, нужно правильно заполнить файл robots.txt, который указывает поисковикам, можно ли индексировать ресурс, какие страницы просканировать, а какие не трогать.

Файл создается в формате txt и помещается в корневой папке сайта. Правильный роботс — это отдельная тема. От этого файла в первую очередь зависит, что и как будут анализировать боты на вашем сайте.

Обычно, на оценку нового сайта и внесение его в базу данных поисковикам требуется от пары недель до пары месяцев.

Пауки тщательно сканируют каждый разрешенный html-документ, определяя соответствующую тематику для нового молодого ресурса. Осуществляется это действие не за один день. При каждом новом обходе ПС будут вносить все большее и большее число html-документов в свою базу. Причем время от времени контент будет подвергаться переоценке, вследствие которой могут меняться места страниц в поисковой выдаче.

Также управлять индексацией помогают мета-тег robots и отчасти canonical. При проверке структуры и решении проблем с индексацией надо всегда смотреть на их наличие.

Google сначала индексирует страницы верхнего уровня. Когда следует проиндексировать новый сайт с определенной структурой, первой в индекс попадает главная страница. После этого, не зная структуры сайта, поисковик будет индексировать то, что находится ближе к слешу. Позже индексируются каталоги с двумя слешами. Это значит, что, даже если ссылки в контенте расположены высоко, они не обязательно будут проиндексированы первыми. Важно оптимально составить структуру, чтобы важные разделы не находились за большим количеством слешей, иначе Google решит, что это страница низкого уровня.

Индексация страницы

Когда Яндекс и Гугл уже познакомились с сайтом и «приняли» его в свою поисковую базу, боты будут возвращаться на ресурс, чтобы сканировать новые, добавляющиеся материалы. Чем чаще и регулярнее будет обновляться контент, тем более пристально будут следить за этим пауки.

Говорят, что для индексации помогает плагин ПДС пингер для поиска Яндекса — https://site.yandex.ru/cms-plugins/ . Для этого нужно сначала установить поиск Яндекса на свой сайт. Но я особой пользы от него не ощутил.

Когда ресурс хорошо проиндексировался, выводить в поиск отдельные, новые страницы уже гораздо проще. Но тем не менее далеко не всегда анализ происходит равномерно и с одинаковой скоростью для всех, одновременно обновленных html-документов. Всегда выигрывают наиболее посещаемые и раскрученные категории ресурса.

Какие есть у поисковиков источники информации об url

Когда-то давно я привлекал быстроробота на конкурента, не продлившего домен, чтобы его понизили в выдаче – это не дало никакого результата.

Как проверить индексацию

Проверка видимости документов html осуществляется по-разному для Google и Яндекс. Но в целом не представляет собой ничего сложного. Сделать это сможет даже новичок.

Проверка в Яндекс

Система предлагает три основных оператора, позволяющих проверить, сколько html-документов находится в индексе.

Оператор «site:» – показывает абсолютно все страницы ресурса, которые уже попали в базу данных.

Вводится в строку поиска следующим образом: site:сайт

Оператор «host:» – позволяет увидеть проиндексированные страницы с доменов и поддоменов в рамках хостинга.

Вводится в строку поиска следующим образом: host:сайт

Оператор «url:» – показывает конкретную запрашиваемую страницу.

Вводится в строку поиска следующим образом: url:сайт/obo-mne

Проверка индексации этими командами всегда дает точные результаты и является самым простым способом анализа видимости ресурса.

Проверка в Google

ПС Гугл позволяет проверить видимость сайта только по одной команде вида site:сайт.

Но у Google есть одна особенность: он по-разному обрабатывает команду с введенными www и без. Яндекс же такого различия не делает и дает абсолютно одинаковые результаты, что с прописанными www, что без них.

Проверка операторами — это самый «дедовский» способ, но я для этих целей пользуюсь плагином для браузера RDS Bar.

Проверка с помощью Webmaster

В сервисах Google Webmaster и Yandex Webmaster также можно посмотреть, сколько страниц находится в базе данных ПС. Для этого нужно быть зарегистрированным в этих системах и внести в них свой сайт. Попасть в них можно по ссылкам:

Суть такая — просто вбиваете адреса страниц, и сервис вам выдаёт результаты:

Проверяет не очень быстро — там надо будет подождать минуты 3, но к бесплатному инструменту и претензий немного. Просто в фоновом окне ставьте и занимайтесь своими делами, через несколько минут результаты будут готовы.

Можно ли ускорить индексацию?

Повлиять на скорость загрузки html-документов поисковыми роботами можно. Для этого следует придерживаться следующих рекомендаций:

  • Повышать количество соцсигналов, побуждая пользователей делиться линками в своих профилях. А можно брать твиты с живых аккаунтов в Prospero (klout 50+). Если составите свой вайт-лист твиттеров, считайте, что получили мощное оружие для ускорения индексации;
  • Почаще добавлять новые материалы;
  • Можно по самым дешевым запросам в своей тематике директ начать крутить;
  • Вносить адрес новой страницы в аддурилки сразу же после ее публикации.

Высокие поведенческие факторы на сайте также положительно влияют на скорость обновления страниц в поиске. Поэтому не стоит забывать о качестве и полезности контента для людей. Сайт, который очень нравится пользователям, обязательно понравится и поисковым роботам.

В Google вообще все очень легко — добавить страницу в индекс в течение нескольких минут можно сканированием в панели для веб-мастеров (пункт сканирование/посмотреть как Googlebot/добавить в индекс). Таким же образом можно быстро переиндексировать необходимые страницы.

Я слышал еще истории о чуваках, которые отсылали урлы почтой Яндекса, чтобы они быстрее попали в индекс. На мой взгляд, это бред.

Если проблема прям есть, и все предыдущие советы не помогли, остается переходить к тяжелой артиллерии.

  • Настраиваем заголовки Last-modified (чтобы робот проверял на обновление только документы, которые действительно изменились с последнего его захода);
  • Удаляем мусор из индекса поисковых систем (этот мусор можно найти с помощью Comparser);
  • Скрываем от робота все ненужные/мусорные документы;
  • Делаем дополнительные файлы Sitemap.xml. Обычно роботы читают до 50 000 страниц из этого файла, если у вас страниц больше — надо делать больше сайтмапов;
  • Настраиваем работу сервера.

Привет! Сегодня я расскажу очень важные вещи, упустив которые можно терять трафик. Часто по мере работы над сайтами, нужно определить: какие страницы проиндексированы, какие нет. Какие страницы требует дополнительного внимания для того, чтобы они попали в индекс.

Особенно это ярко заметно при работе с интернет-магазинами: при работе с огромным количеством товаров/разделов, постоянно добавляются все новые и новые страницы. Поэтому нужен жесткий контроль индексации свежедобавленных страниц, чтобы не терять трафик с поиска.

В этом небольшом уроке я расскажу, как я проверяю страницы сайта на проиндексированность.

Как проверить страницы на индексацию

Как я проверяю проиндексированность конкретной страницы с помощью RDS bar, я уже рассказывал .

Ну или же можно просто вбить в Яндекс вот этот код:

Url:www..ru/about

Или для Google:

Info:https://сайт/about

Конечно, URL адрес сайт/about меняете на свой.

А что же делать, если нужно проверить проиндексированность десяток/сотен, а то и более статей? Я поступаю следующим образом:

  1. Ставим замечательную бесплатную программу YCCY (скачать можете отсюда).
  2. Запускаем ее и переходим в Indexator:

  3. В левую часть программы загружаем список URL, который нужно проверить на индекс:

  4. В настройках при работе с Яндекс я поставил работу через Yandex XML. и с чем его едят я уже рассказывал:

  5. Выбираем интересующую нас поисковую систему, отмечаем что нас интересует (в нашем случае “Индексированность”) и нажимаем на кнопку “Начать проверку”:

  6. И вуаля, справа вы увидим отдельный список проиндексированных страниц, а также того, чего пока нет в индексе:

Что делать с непроиндексированными страницами?

Сервисы для ускорения индексации

Я обычно не проиндексированные страницы прогоняю с помощью разных сервисов, я предпочитаю этот getbot.guru . Да, безусловно не 100% страниц залезают с помощью него в индекс но все же в среднем около 70-80% из прогнанных URL как правило залезает (сильно зависит от адекватности страниц тоже).

Сервис, конечно же, платный, нужно платить за каждый URL. За те страницы, которые не попали в индекс последует возврат средств, что очень справедливо и заманчиво (зависит от тарифа). А уже эти страницы, которые не попали в индекс, я повторно отправляю в сервис. Снова при следующем апдейте часть из этих страниц входит в индекс.

Думаю, разобраться сможете сами, ничего сложно нет. Регистрируетесь -> Создаете проект -> Запускаете проект. Единственное, могут возникнуть сложности при выборе тарифа. Я предпочитаю работать с тарифом “Абсолют апдейт” (кликните на изображение, чтобы увеличить):

Кстати, обратите внимание, что в сервисе тоже можно проверить страницы на проиндексированность. Цена вопроса в районе 10 копеек за 1 URL. Я же предпочитаю бесплатный YCCY, о котором писал выше.

На страницы из проекта отсылается быстробот яндекса, периодически проверяется индексация страниц проекта в Яндекс, на страницы не вошедшие в индекс, быстробот отсылается ещё раз. После завершения задания, для страниц не вошедших в индекс, осуществляется автоматический возврат средств на баланс. Мы не используем социальные сети и спам методы для привлечения быстробота. Для работы сервиса используется своя сеть новостных сайтов, владельцами которых мы являемся.

Ускорение индексации с помощью Твиттера или новостных сайтов

Ну, если вы не любите прогоны с помощью подобных сервисов, то можно воспользоваться Твиттером. Ссылки в Твиттере поисковики очень хорошо “кушают”, если аккаунты более-менее адекватные.

Про это я уже писал относительно подробно в уроке “ “. Там помимо твиттера я разбирал еще другие способы быстрой индексации.

Переиндексация существующих страниц

Аналогично можно отправить страницу на перееиндексацию. Проверяя кэш страницы в поисковиках, можно узнать проиндексировалась страница или нет. Как проверить кэш страницы я рассказывал в .

Работа с индексом с помощью программы Comparser

YCCY хоть и старая программа, но мне она очень нравится. Я ее использую для проверки индексации известных мне страниц.

Если же нужно выяснить, какие страницы сайта еще не попали в индекс (я уже писал про нее целый урок). Его принцип простой: он выгружает все URL сайта, которые вы разрешили для индексирования (этот пункт можно менять в настройках) и проверяет каждую страницу на индекс. Либо с помощью простого обращения выгружает первые 1000 страниц из индекса.