Яндекс не проиндексировал главную страницу. Решаем проблему индексации страниц яндексом. Как ускорить индексацию в Яндексе

19.12.2023 | Проблемы

От SiteClinic.

Плохая индексация сайта - одна из серьезных проблем вебмастеров. Почему сайт или его отдельные страницы до сих пор не в индексе? Чтобы ответить на этот вопрос, нужно провести небольшой анализ. Ниже приведен список основных причин плохой индексации, который можно использовать как чеклист для решения проблемы.

Основные причины

Существует 5 основных причин, по которым сайт или его отдельные документы могут не заходить в индекс (или делать это с трудом). Вот они:

— Робот не знает о сайте или документе
— Сайт или его часть недоступна для робота
— Сайт находится в черном списке
— Присутствует техническая ошибка
— Отдельные страницы или разделы показывают плохое качество

Ниже подробно расписан каждый перечисленный выше пункт.

1. Робот не знает о сайте/документе

Робот может не знать о сайте (не включить его в свое расписание) по разным причинам.

— Прошло мало времени

Для того, чтобы робот узнал о сайте или новой странице, необходимо время, когда он найдет ссылку (внутреннюю или внешнюю), либо когда кто-то зайдет на сайт из браузера с установленным тулбаром, либо вы намеренно сообщите роботу о появлении нового документа. Ускорить попадание документа в расписание индексации можно с помощью .

Также, если вы по логам сервера уже видите, что робот заходил на сайт, а страницы в индексе не появились, нужно подождать апдейта, который в Яндексе происходит не чаще 2 раз в неделю (а по праздникам доходит до 1 раза в 2-4 недели). В основной индекс страницы могут попадать за несколько часов в Google и минимум за 2 недели в Яндекс (если попадают раньше, то по документу скорей всего прошелся быстробот и позже страницы могут на время уйти из индекса до прихода основного робота).

— На сайт/документ не стоит ссылок

Если сайт обновляется редко, то робот на него также будет заходить редко и при добавлении новых страниц нужно убедиться, что на них стоят ссылки с главной, либо можно поставить ссылки с других внешних ресурсов (с целью подсказки роботу о новых документах).

2. Сайт или его часть недоступна для робота

Даже если поисковик уже знает о сайте, мы можем осознанно или неосознанно закрывать ему доступ к отдельным разделам и документам.

— Домен не делегирован (или снят с делегирования по жалобе)

Убедитесь, что приобретенный вами домен делегирован и доступен по доменному имени не только вам, но и другим пользователям сети. Попросите своих знакомых из другого города зайти на сайт и проверить, открывается ли он.

— Медленная скорость отдачи документов

Медленная скорость отдачи документов из-за проблем в хостинге или CMS не позволит роботу быстро индексировать сайт. Он будет продолжать его сканировать, но не так быстро, как если бы документы отдавались моментально. Простая оптимизация скорости загрузки сайта может существенно улучшить его индексацию.

Конечно же, существуют и другие причины плохой индексации сайта. Если ни один из вышеперечисленных признаков вам не подходит, необходимо связаться со службой поддержки поисковой системы, либо связаться со специалистами.

Если в вашем опыте встречались какие-то другие проблемы, мешающие сайту нормально индексироваться, делитесь ими в комментариях!

Яндекс не индексирует мой сайт...

Данную фразу можно нынче встретить на каждом форуме. Как меня, так и тысячи других владельцев новых сайтов очень интересует вопрос: "Почему Яндекс в последнее время очень медленно индексирует новые сайты или не индексирует их вообще?".

Большинство начинающих вебмастеров описывает приблизительно одинаково сложившуюся проблему. Очень часто сайт успешно индексируется другими поисковыми системами, тем же Гуглом, Рамблером, Yahoo, MSN, Апортом и т.д., но вот Яндекс наотрез отказывается индексировать сайт даже при наличии внешних ссылок, уже проиндексированных самим же Яндексом. Вот такой парадокс получается...

И начинают владельцы недавно созданных ресурсов рыскать по форумам в надежде найти ответ на этот непростой вопрос.

Кстати я не являюсь исключением, поэтому и решила поднять эту тему. Мой сайт был проиндексирован в полном объеме поисковой системой Google уже через две недели после его опубликования в Интернете. На тот момент сайт не имел ни одной внешней ссылки, но был добавлен в панель вебмастеров.

Яндекс не проиндексировал ни одной страницы до сих пор, хотя уже прошло более двух месяцев. И такая ситуация наблюдается у многих владельцев сайта. Многие из них, устав выяснять причины отсутствия индексации со стороны Яндекса, стали раскручивать свои сайты под Гугл. Чувствую, что пойти этим путем придется и мне. Тем более, что все новые статьи на моем сайте Гугл индексируют очень шустро.

Тоже самое могу сказать и о поисковой системе Рамблер. Да, она несколько уступает по скорости индексации Гуглу, но тем не менее ею проиндексированы на сегодняшний день почти все страницы моего сайта. Жаль, что по популярности у пользователей Интернета Рамблер значительно отстает от Яндекса...

Для тех, кто еще не потерял надежды попасть в индекс Яндекса посвящается дальнейшая часть статьи, где мы попытаемся выяснить основные причины отсутствия молодого сайта в индексе.

Итак, для начала давайте убедимся, что Яндексом действительно не проиндексировано ни одной страницы сайта. Для этого воспользуемся расширенным поиском самого же Яндекса.

Поле "Я ищу" на странице расширенного поиска оставляете пустым. В поле "На сайте" вводите адрес вашего сайта и нажимаете "Найти" в самом низу страницы. Если в ответ получите "Искомая комбинация слов нигде не встречается", то индексация действительно прошла мимо вас.

А может Яндекс вовсе не знает о существовании вашего сайта, Добавляли ли вы его в панель вебмастеров, отображается ли он там?

Если данные о нем фигурируют в панели вебмастера, значит Яндекс в курсе и ваш сайт вероятно застрял в очереди на индексацию. Если сайта в панели вебмастеров нет, возможно вам не удалось подтвердить права на него. Попробуйте подтвердить права еще раз.

У многих вебмастеров возникают опасения в том, что их сайт оказался забанен либо он под штрафными санкциями. Проверить свой сайт на бан несложно, для этого в форму добавления новых урлов (в народе она называется аддурилкой) добавьте адрес любой внутренней страницы вашего сайта. Если результат будет: "Ваш адрес успешно добавлен и будет проиндексирован...", значит ни о каком бане и речи нет.

Если ответом будет: "URL недоступен", значит имеют место технические проблемы сервера. Чтобы убедиться в этом, просмотрите логи сервера. Обычно клиенты хостинга имеют свободный доступ к серверным журналам логов в своей админпанели. Если доступа нет, можно обратиться в техподдержку хостинга с просьбой предоставить последние записи в журнале логов.

Запись в журнале логов выглядит следующим образом:

275.169.105.78 - [ 29.11.2010: 15:35:47 + 0500 ] " GET/HTTP/1.01 200 OK "_" "Yandex/1.01.001 (compatible, win16, I ).

Теперь давайте расшифруем данную запись:

275.169.105.78 - это IP- адрес, с которого к вам заходят посетители либо боты;

29.11.2010: 15:35:47 - это дата и время посещения ими вашего сайта;

HTTP/1.01 200 - это ответ сервера, обязательно в ответе сервера должна присутствовать цифра 200, это значит, что страница сайта доступна для прочтения. При отсутствии такого ответа есть смысл обратиться к хостеру с просьбой устранить неполадки;

Yandex/1.01.001 (compatible, win16, I ) - это название бота Яндекса, обратите внимание на последний символ I , он присущ основному боту Яндекса. Если такая запись в журнале имеется, то паниковать не стоит. Значит основной бот Яндекса посещает ваш сайт и возможно скоро страницы сайта появятся в индексе.

Главное, чтобы после Yandex/1.01.001 (compatible, win16, I ) не было сообщения об ошибке, например HTTP/1.1.404 Not Found, означающей, что бот сервера не разрешил боту Яндекса прочесть страницу. В случае обнаружения подобной записи немедленно обращайтесь к хостеру.

Проверить ответ сервера можно также в сервисе be1.ru/stat/ либо его аналоге seo-rus.com. В конце страницы, после анализа сайта будет вот такая запись:

Заголовок

HTTP/1.1 200 OK

Server: nginx/0.7.67

Content-Type: text/html

Connection: close

ETag: "5c8e26-6636-4961a4c921a80"

Accept-Ranges: bytes

Content-Length: 26166

Vary: Accept-Encoding

В строке после 271 вы видите нужный ответ сервера. Если в результате проведенной проверки вами не выявлено технических причин и ваш сайт не забанен, посещается ботами, вы не нарушили никаких правил лицензионного использования поисковой системы Яндекса, ваш сайт представляет собой СДЛ, контент на сайте уникальный, ссылками не торгуете, спам не плодите, тогда единственный выход из создавшейся ситуации - это обратиться в техподдержку Яндекса.

Для удобства вебмастеров и поисковых систем был разработан специальный формат карты сайта - sitemap. Это список ссылок на внутренние страницы сайта, представляемый в формате XML. Этот формат поддерживает и Яндекс. можно загрузить sitemap для вашего сайта. Это позволит влиять на приоритет обхода роботом некоторых страниц вашего сайта. Например, если какие-то страницы обновляются гораздо чаще, чем другие, следует указать эту информацию, чтобы робот Яндекса правильно планировал свою работу.

Яндекс индексирует основные типы документов, распространенных в Сети. Но существуют ограничения, от которых зависит, как будет проиндексирован документ, и будет ли проиндексирован вообще:

Большое количество cgi-параметров в URL, большое количество повторяющихся вложенных директорий и слишком большая общая длина URL может привести к ухудшению индексирования документов.

Для индексирования важен размер документа - документы больше 10Мб не индексируются.

Индексирование flash:
1. индексируются файлы *.swf, если на них есть прямая ссылка или они встроены в html тегами object или embed ;
  
  если flash содержит полезный контент, исходный html документ может быть найден по контенту, проиндексированному в swf файле .

В документах PDF индексируется только текстовое содержимое. Текст, представленный в виде картинок, не индексируется.

Яндекс корректно индексирует документы в формате Open Office XML и OpenDocument (в частности, документы Microsoft Office и Open Office). Но следует учитывать, что внедрение поддержки новых форматов может занимать некоторое время.

Допустимо использование тегов и , робот Яндекса индексирует контент, подгружаемый в них, и позволяет найти исходный документ по содержимому фреймов.

При продвижении сайта в поисковые системы иногда возникает следующая проблема - некоторые страницы ресурса никак не могут быть проиндексированы поисковиками. Почему так происходит? Сложно однозначно ответить на этот вопрос, пока нет возможности посмотреть на сам проект и попытаться исправить очевидные проблемы, если таковые имеются. И даже если причина, почему поисковики игнорируют какую-либо страницу, найдена, всегда существует вероятность, что она может быть не единственной. Естественно получается так - если часть страниц, оптимизированных под определённые ключевые слова, не индексируется поисковиками, то эффективное продвижение сайта просто невозможно.

Если возникают проблемы с индексацией, изначально есть смысл проверить в каждом поисковике отдельно, выбранном для продвижения - вполне возможно, что проблема есть только с одной поисковой системой. В этом случае причина может быть даже в банальной ошибке. Многие системы предоставляют возможность проверить проиндексирована ли определённая страница при помощи специальных операторов, однако есть более простой и быстрый способ - просто ввести в строку поиска адрес страницы и посмотреть результаты. В том случае, если поисковик не выдаст ссылку на эту страницу Вашего сайта, логично предположить, что она не проиндексирована.

Когда Вы уже осознали, что определённая страница действительно не проиндексирована в поисковике, необходимо проверить и все остальные страницы сайта, введя в строку поиска "site:имя_сайта.ru". При этом Вы точно поймёте, какие страницы Вашего ресурса уже проиндексированы, а какие нет - ведь проблема может быть куда масштабнее, чем одна "забытая" поисковиками страница. К основным причинам проблем с индексацией специалисты Newmann Bauer относят:

1. Слишком длинный динамический адрес страниц. Поисковики иногда "отказываются" от индексации страниц, адрес которых слишком длинный и содержит множество дополнительных параметров;
2. Если на страницах сайта содержатся тексты, которые являют собой обыкновенный спам. Также такое может произойти из-за контента, перенасыщенного ключевыми словами. Решение - наполнение страницы другим содержанием и просьба о переиндексации страницы. В противном случае спам может испортить рейтинг сайту в целом;
3. В том случае, если файл robots.txt, содержащий инструкции для поисковых роботов составлен неправильно, некоторые страницы могут быть просто исключены и необходимости их индексации для поисковых роботов не существует. Это также может быть причиной, по которой не индексируется какая-либо определённая страница ресурса;
4. На Вашем проекте содержатся скрытые ссылки. Если навигация по проекту происходит при помощи способов, которые не относятся к HTML, поисковики могут просто не видеть страницы, которые необходимо проиндексировать.

Бывает и так, что индексация всех страниц проходит правильно, а одна-единственная страница остаётся недоступной к обнаружению через поисковые системы. В этом случае вполне возможно, что такая страница доступна только тем пользователям, которые заполняют определённую форму или же кликают на всплывающее окно - поисковые роботы делать этого пока ещё не научились. На странице также может присутствовать редирект с использованием JavaScript или мета обновлением, которое препятствует индексации. Также в случае использования фрейма на странице, грубых ошибок в коде или слишком длинных размеров индексация вполне возможно будет неправильной.

Что такое индексирование? Это процесс получения роботом содержимого страниц вашего сайта и включение этого содержимого в результаты поиска. Если обратиться к цифрам, то в базе индексирующего робота содержится триллионы адресов страниц сайта. Ежедневно робот запрашивает миллиарды таких адресов.

Но этот весь большой процесс индексирования Интернета можно разделить на небольшие этапы:

Во-первых, индексирующий робот должен узнать о появлении страницы вашего сайта. Например, проиндексировав другие страницы в Интернете, найдя ссылки, либо загрузив файл set nemp. О страничке мы узнали, после чего планируем обход этой страницы, отправляем данные к вашему серверу на запрос этой страницы сайта, получаем контент и включаем его в результаты поиска.

Этот весь процесс – это процесс обмена индексирующим роботом с вашим сайтом. Если запросы, которые посылает индексирующий робот, практически не меняются, а меняется только адрес страницы, то ответ вашего сервера на запрос страницы роботом зависит от многих факторов:

от настроек вашей CMS;
от настроек хостинг провайдера;
от работы промежуточного провайдера.

Этот ответ как раз меняется. Прежде всего при запросе страницы робот от вашего сайта получает такой служебный ответ:

Это HTTP заголовки. В них содержится различная служебная информация, которая дает роботу понять передача какого контента сейчас будет происходить.

Мне хочется остановиться на первом заголовке – это HTTP-код ответа, который указывает индексирующему роботу на статус страницы, которую запросил робот.

Таких статусов HTTP-кодов несколько десятков:

Я расскажу о самых популярных. Наиболее распространенный код ответа – это HTTP-200. Страница доступна, ее можно индексировать, включать в результаты поиска, все отлично.

Противоположность этого статуса – это HTTP-404. Страница отсутствует на сайте, индексировать нечего, включать в поиск тоже нечего. При смене структуры сайтов и смене адресов внутренних страниц мы советуем настраивать 301 сервер на редирект. Как раз он укажет роботу на то, что старая страница переехала на новый адрес и необходимо включать в поисковую выдачу именно новый адрес.

Если контент страницы не менялся с последнего посещения страницы роботом, лучше всего возвращать код HTTP-304. Робот поймет, что обновлять в результатах поиска страницы не нужно и передача контента тоже не будет происходить.

При кратковременной доступности вашего сайта, например, при проведении каких-либо работ на сервере, лучше всего настраивать HTTP-503. Он укажет роботу на то, что сейчас сайт и сервер недоступны, нужно зайти немножко попозже. При кратковременной недоступности это позволит предотвратить исключение страниц из поисковой выдачи.

Помимо этих HTTP-кодов, статусов страниц, необходимо еще получить непосредственно контент самой страницы. Если для обычного посетителя страница выглядит следующим образом:

это картиночки, текст, навигация, все очень красиво, то для индексирующего робота любая страница – это просто набор исходного кода, HTML-кода:

Различные метатеги, текстовое содержимое, ссылки, скрипты, куча всякой информации. Робот собирает ее и включает в поисковую выдачу. Кажется, все просто, запросили страницу – получили статус, получили содержимое, включили в поиск.

Но недаром в службу поискового сервиса в Яндексе приходит более 500 писем от вебмастеров и владельцев сайтов о том, что возникли определенные проблемы как раз с ответом сервера.

Все эти проблемы можно разделить на две части:

Это проблемы с HTTP-кодом ответа и проблемы с HTML-кодом, с непосредственным содержимым страниц. Причин возникновения этих проблем может быть огромное множество. Самая распространенная – это блокировка индексирующего робота хостинг-провайдером.

Например, вы запустили сайт, добавили новый раздел. Робот начинает посещать ваш сайт чаще, увеличивает нагрузку на сервер. Хостинг-провайдер видит это на своих мониторингах, блокирует индексирующего робота, и поэтому робот не может получить доступ к вашему сайту. Вы заходите на ваш ресурс – все отлично, все работает, странички красивенькие, все открывается, все супер, робот при этом проиндексировать сайт не может. При временной недоступности сайта, например, если забыли оплатить доменное имя, сайт отключен на несколько дней. Робот приходит на сайт, он недоступен, при таких условиях он может пропасть из поисковой выдачи буквально через некоторое время.

Некорректные настройки CMS, например, при обновлении или переходе на другую CMS, при обновлении дизайна, так же могут послужить причиной того, что страницы вашего сайта могут пропасть из выдачи при некорректных настройках. Например, наличие запрещающего метатега в исходном коде страниц сайта, некорректная настройка атрибута canonical. Проверяйте, что после всех изменений, которые вы вносите на сайт, страницы доступны для робота.

В этом вам поможет инструмент в Яндекс. Вебмастере по проверке ответа сервера:

Можно посмотреть какие HTTP заголовки возвращает ваш сервер роботу, непосредственно содержимое страниц.

В разделе «индексирование» собрана статистика, где вы можете посмотреть какие страницы исключены, динамику изменения этих показателей, сделать различную сортировку и фильтрацию.

Так же, уже сегодня говорил об этом разделе, раздел «диагностика сайта». В случае, если ваш сайт стал недоступен для робота, вы получите соответствующее уведомление и рекомендации. Каким образом это можно исправить? Если таких проблем не возникло, сайт доступен, отвечает кодам-200, содержит корректный контент, то робот начинает в автоматическом режиме посещать все страницы, которые он узнает. Не всегда это приводит к нужным последствиям, поэтому деятельность робота можно определенным образом ограничить. Для этого существует файл robots.txt. О нем мы и поговорим в следующем разделе.

Robots.txt

Сам по себе файлик robots.txt – это небольшой текстовый документ, лежит он в корневой папке сайта и содержит строгие правила для индексирующего робота, которые нужно выполнять при обходе сайта. Преимущества файла robots.txt заключаются в том, что для его использования не нужно особых и специальных знаний.

Достаточно открыть Блокнот, ввести определенные правила по формату, а затем просто сохранить файл на сервере. В течении суток робот начинает использовать эти правила.

Если взять пример файла robots.txt простенького, вот он, как раз на следующем слайде:

Директива User-Agent:” показывает для каких роботов предназначается правило, разрешающие\запрещающие директивы и вспомогательные директивы Sitemap и Host. Немножко теории, хочется перейти к практике.

Несколько месяцев назад мне захотелось купить шагометр, поэтому я обратился к Яндекс. Маркету за помощью с выбором. Перешел с главной страницы Яндекс на Яндекс. Маркет и попал на главную страницу сервиса.

Внизу вы видите адрес страницы, на которую я перешел. К адресу самого сервиса еще добавился идентификатор меня, как пользователя на сайте.

Потом я перешел в раздел «каталог»

Выбрал нужный подраздел и настроил параметры сортировки, цену, фильтр, как сортировать, производителя.

Получил список товаров, и адрес страницы уже разросся.

Зашел на нужный товар, нажал на кнопочку «добавить в корзину» и продолжил оформление.

За время моего небольшого путешествия адреса страниц менялись определенным образом.

К ним добавлялись служебные параметры, которые идентифицировали меня, как пользователя, настраивали сортировку, указывали владельцу сайта откуда я перешел на ту или иную страницу сайта.

Такие страницы, служебные страницы, я думаю, что не очень будут интересны пользователям поисковой системы. Но если они будут доступны для индексирующего робота, в поиск они могут попасть, поскольку робот себя ведет, по сути, как пользователь.

Он переходит на одну страничку, видит ссылочку, на которую можно кликнуть, переходит на нее, загружает данные в базу робота свою и продолжает такой обход всего сайта. В эту же категорию таких адресов можно отнести и личные данные пользователей, например, такие, как информация о доставке, либо контактные данные пользователей.

Естественно, их лучше запрещать. Как раз для этого и поможет вам файл robots.txt. Вы можете сегодня вечером по окончанию Вебмастерской прийти на свой сайт, покликать, посмотреть какие страницы действительно доступны.

Для того, чтобы проверить robots.txt существует специальный инструмент в Вебмастере:

Можно загрузить, ввести адреса страниц, посмотреть доступны они для робота или нет.

Внести какие-то изменения, посмотреть, как отреагирует робот на эти изменения.

Ошибки при работе с robots.txt

Помимо такого положительного влияния – закрытие служебных страниц, robots.txt при неправильном обращении может сыграть злую шутку.

Во-первых, самая распространенная проблема при использовании robots.txt – это закрытие действительно нужных страниц сайта, те, которые должны находиться в поиске и показываться по запросам. Прежде чем вы вносите изменения в robots.txt, обязательно проверьте не участвует ли страница, которую вы хотите закрыть, не показывается ли по запросам в поиске. Возможно страница с каким-то параметрами находится в выдаче и к ней приходят посетители из поиска. Поэтому обязательно проверьте перед использованием и внесением изменений в robots.txt.

Во-вторых, если на вашем сайте используются кириллические адреса, в robots.txt их указать не получится в прямом виде, их обязательно нужно кодировать. Поскольку robots.txt является международным стандартным, им следуют все индексирующие роботы, их обязательно нужно будет закодировать. Кириллицу в явном виде указать не получится.

Третья по популярности проблема – это различные правила для разных роботов разных поисковых систем. Для одного индексирующего робота закрыли все индексирующие страницы, для второго не закрыли совсем ничего. В результате этого у вас в одной поисковой системе все хорошо, в поиске нужная страница, а в другой поисковой системе может быть трэш, различные мусорные страницы, еще что-то. Обязательно следите, если вы устанавливаете запрет, его нужно делать для всех индексирующих роботов.

Четвертая по популярности проблема – это использование директивы Crawl-delay, когда в этом нет необходимости. Данная директива позволяет повлиять на чистоту запросов со стороны индексирующего робота. Это практический пример, маленький сайт, разместили его на небольшом хостинге, все прекрасно. Добавили большой каталог, робот пришел, увидел кучу новых страниц, начинает чаще обращаться на сайт, увеличивает нагрузку, скачивает это и сайт становится недоступным. Устанавливаем директиву Crawl-delay, робот видит это, снижает нагрузку, все отлично, сайт работает, все прекрасно индексируется, находится в выдаче. Спустя какое-то время сайт разрастается еще больше, переносится на новый хостинг, который готов справляться с этими запросами, с большим количеством запросов, а директиву Crawl-delay забывают убрать. В результате чего робот понимает, что на вашем сайте появилось очень много страниц, но не может их проиндексировать просто из-за установленной директивы. Если вы когда-либо использовали директиву Crawl-delay, проверьте, что сейчас ее нет и что ваш сервис готов справиться с нагрузкой от индексирующего робота.

Помимо описанной функциональности файл robots.txt позволяет еще решить две очень важные задачи – избавиться от дублей на сайте и указать адрес главного зеркала. Об этом как раз мы и поговорим в следующем разделе.

Дубли

Под дублями мы понимаем несколько страниц одного и того же сайта, которые содержат абсолютно идентичный контент. Самый распространенный пример – это страницы со слешом и без слеша в конце адреса. Так же под дублем можно понимать один и тот же товар в различных категориях.

Например, роликовые коньки могут быть для девочек, для мальчиков, одна и та же модель может находиться в двух разделах одновременно. И, в-третьих, это страницы с незначащим параметром. Как в примере с Яндекс. Маркетом эта страничка «идентификатор сессии», такой параметр не меняет контент страницы в принципе.

Чтобы обнаружить дубли, посмотреть к каким страницам робот обращается, вы можете использовать Яндекс. Вебмастер.

Помимо статистики есть еще и адреса страниц, которые робот загрузил. Вы видите код и последнее обращение.

Неприятности, к которым приводят дубли

Чем же плохи дубли?

Во-первых, робот начинает обращаться к абсолютно идентичным страницам сайта, что создает дополнительную нагрузку не только на ваш сервер, но и влияет на обход сайта в целом. Робот начинает уделять внимание дублирующим страницам, а не тем страницам, которые нужно индексировать и включать в поисковую выдачу.

Вторая проблема – это то, что дублирующие страницы, если они доступны для робота, могут попасть в результаты поиска и конкурировать с основными страницами по запросам, что, естественно, может негативно повлиять на нахождение сайта по тем или иным запросам.

Как можно бороться с дублями?

Прежде всего я советую использовать “canonical” тег для того, чтобы указать роботу на главную, каноническую страницу, которая должна индексироваться и находиться в поиске по запросам.

Во втором случае можно использовать 301 серверный редирект, например, для ситуаций со слешом на конце адреса и без слеша. Установили перенаправление – дублей нет.

И в-третьем, как я уже говорил, это файл robots.txt. Можно использовать как запрещающие директивы, так и директиву Clean-param для того, чтобы избавиться от незначащих параметров.

Зеркала сайта

Вторая задача, которую позволяет решить robots.txt – это указать роботу на адрес главного зеркала.

Зеркала – это группа сайтов, которые абсолютно идентичны, как дубли, только различные два сайта. Вебмастера обычно с зеркалами сталкиваются в двух случаях – когда хотят переехать на новый домен, либо, когда для пользователя нужно сделать несколько адресов сайта доступными.

Например, вы знаете, что пользователи, когда набирают ваш адрес, адрес вашего сайта в адресной строке, часто делают одну и ту же ошибку – опечатываются, не тот символ ставят или еще что-то. Можно приобрести дополнительный домен для того, чтобы пользователям показывать не заглушку от хостинг-провайдера, а показывать тот сайт, на который они действительно хотели перейти.

Остановимся на первом пункте, потому что именно с ним чаще всего и возникают проблемы в работе с зеркалами.

Весь процесс переезда я советую осуществлять по следующей инструкции. Небольшая инструкция, которая позволит вам избежать различных проблем при переезде на новое доменное имя:

Во-первых, вам необходимо сделать сайты доступными для индексирующего робота и разместить на них абсолютно идентичный контент. Так же убедитесь, что о существовании сайтов роботу известно. Проще всего добавить их в Яндекс. Вебмастер и подтвердить на них права.

Во-вторых, с помощью директивы Host указывайте роботу на адрес главного зеркала – тот, который должен индексироваться и находиться в результатах поиска.

Ждем склейки и переноса всех показателей со старого сайта на новый.

После чего уже можно установить перенаправление со старого адреса на новый. Простенькая инструкция, если вы переезжаете, обязательно используйте ее. Надеюсь, проблем не возникнет с
переездом.

Но, естественно, при работе с зеркалами возникают ошибки.

Прежде всего самая главная проблема – это отсутствие явных указаний для индексирующего робота на адрес главного зеркала, тот адрес, который должен находиться в поиске. Проверьте на ваших сайтах, что в robots.txt у них указана директива хоста, и она ведет именно на тот адрес, который вы хотите видеть в поиске.

Вторая по популярности проблема – это использование перенаправления для того, чтобы сменить главного зеркала в уже имеющейся группе зеркал. Что происходит? Старый адрес, поскольку осуществляет перенаправление, роботом не индексируется, исключается из поисковой выдачи. При этом новый сайт в поиск не попадает, поскольку является неглавным зеркалом. Вы теряете трафик, теряете посетителей, я думаю, что это никому не нужно.

И третья проблема – это недоступность одного из зеркал при переезде. Самый распространенный пример в этой ситуации, когда скопировали контент сайта на новый адрес, а старый адрес просто отключили, не оплатили доменное имя и он стал недоступен. Естественно такие сайты склеены не будут, они обязательно должны быть доступны для индексирующего робота.

Полезные ссылки в работе:

Больше полезной информации вы найдете в сервисе Яндекс.Помощь .
Все инструменты, о которых я говорил и даже больше – есть бета-версия Яндекс.Вебмастера .

Ответы на вопросы

«Спасибо за доклад. Нужно ли в robots.txt закрывать индексацию CSS-файлов для робота или нет?».

На текущий момент мы не рекомендуем закрывать их. Да, CSS, JavaScript лучше оставить, потому что сейчас, мы работаем над тем, чтобы индексирующий робот начал распознавать и скрипты на вашем сайте, и стили, видеть, как посетитель из обычного браузера.

«Подскажите, а если url’ы адресов сайта будут одинаковые, у старого и у нового – это нормально?».

Да, ничего страшного. По сути, у вас просто обновление дизайна, добавление какого-то контента.

«На сайте есть категория и она состоит из нескольких страниц: слеш, page1, page2, до 10-ти, допустим. На всех страницах один текст категории, и он, получается, дублирующий. Будет ли этот текст являться дубликатом или нужно его как-то закрывать, новый индекс на вторых и далее страницах?».

Прежде всего, поскольку на первой странице пагинации, а на второй странице контент, в целом-то, отличаются, они дублями не будут. Но нужно рассчитывать, что вторая, третья и дальше страницы пагинации могут попасть в поиск и показывать по какому-либо релевантному запросу. Лучше в страницах пагинации я бы рекомендовал использовать атрибут canonical, в самом лучшем случае – на странице, на которой собраны все товары для того, чтобы робот не включал страницы пагинации в поиске. Люди очень часто используют canonical на первую страницу пагинации. Робот приходит на вторую страницу, видит товар, видит текст, страницы в поиск не включает и понимает за счет атрибута, что надо включать в поисковую выдачу именно первую страницу пагинации. Используйте canonical, а сам текст закрывать, думаю, что не нужно.

Источник (видео): Как настроить индексирование сайта - Александр Смирнов

Магомед Чербижев