Sfera-perm.ru

Сфера Пермь
0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Как закрыть счетчик nofollow

Как закрыть ссылку от индексации? Тег noindex и атрибут nofollow

Здравствуйте, гости и читатели блога nazyrov.ru. С вами снова Андрей Назыров. И в этой статье я расскажу, как правильно закрыть ссылку от индексации поисковых систем.

Зачем закрывать внешние ссылки от индексации думаю объяснять не нужно. Несмотря на то, что Яндекс отменил АГС, он все же ранжирует ниже блоги, с которых идет большое количество внешних ссылок.

Честно говоря, я очень удивлен. Оказывается, многие не знают, как закрыть ссылку. А если и слышали о теге и атрибуте rel= «nofollow», то не знают их точное предназначение. Давайте все-таки определимся, что это за теги и с чем их едят. Для этого обратимся к самим поисковикам и к знаменитой Википедии.

Обратите внимание, я написал определенный участок веб-страницы, а не ссылку. При использовании тега noindex, Яша не индексирует только анкор (текст), а саму ссылку он будет индексировать как и прежде.

В этом можно убедиться, увидев ссылку в Яндекс-Вебмастере. Я таких экспериментов не проводил, но об этом говорят люди, которым можно доверять на все 100%.

Яндекс-Вебмастер в разделе «Входящие ссылки» тоже никак не упоминает про noindex

Очень важный момент – noindex определяет только Яндекс. Google же на него никак не реагирует, и продолжает индексировать все, что помещено в эти теги.

Вот пример ссылки расположенной в теги noindex:

У noindex есть еще один минус. В связи с тем, что он не входит в официальную спецификацию HTML, большинство валидаторов его считают ошибкой. Этого можно избежать, если использовать тег в другой конструкции —

Вот пример ссылки с использованием такой конструкции:

Исходя из этого, можно сделать вывод:

Тег noindex следует использовать только для скрытия неуникального текста, чтобы Яндекс его не считал за копипаст. В закрытии же ссылок от индексации он бесполезен.

Атрибут rel= «nofollow»

Этот атрибут видит и Google и Яндекс. Яша в отличие от Google стал различать этот атрибут не так давно. Впервые он перестал учитывать вес ссылки, имеющей этот атрибут в мае 2010 года.

Но идеального ничего не бывает. На многих SEO форумах не перестают утихать дебаты о индексировании ссылок с атрибутом nofollow. Связано это вот с чем:

  1. В связи с тем, что процесс индексации и расчёта веса страницы идет отдельно, некоторые ссылки содержащие атрибут nofollow, могут отображаться в панели вебмастера Яндекс и Google.
  2. Быстроробот Яндекса обычно тоже индексирует все ссылки, несмотря ни на какие теги. Но при последующем обновлении, они исчезнут.

Вот пример ссылки с использованием атрибута rel= «nofollow»:

Для себя я сделал следующий вывод:

  • Ссылки определенно закрывать надо. Это напрямую влияет на авторитетность веб-ресурсов и частично на поисковую выдачу.
  • Закрывать ссылки нужно при помощи атрибута rel=”nofollow”.
  • Нужно регулярно проверять блог на наличие исходящих и битых ссылок.

Часть VI/3. Nofollow и noindex или как закрыть от индексации ссылки и не потерять статический вес

Автор: Дмитрий KtoNaNovenkogo

Сегодня я хочу затронуть проблему понимания того, можно ли сейчас использовать теги nofollow и noindex для того, чтобы закрыть ссылку от индексации поисковыми системами, ибо за последние полгода, или год произошло кардинальное изменение алгоритма работы как тега noindex, так и тега nofollow.

Проблема здесь заключается в том, что Google изменил принцип расчета статического веса при использовании тега nofollow (вообще-то, nofollow не является тегом как таковым, но для упрощения я его буду называть именно так, дабы не вносить дополнительный сумбур в терминологию) и изменение это давно и горячо обсуждается на разных тематических форумах по продвижению и оптимизации сайтов.

Да и Яндекс тоже не отстал от своего самого большого конкурента на рынке поиска рунета и изменил свое отношение к тегу nofollow (стал его учитывать), но зато теперь тег noindex никак не влияет на учет закрытой им ссылки. Google так вообще не знает о теге noindex и, естественно, его с успехом игнорирует.

Но рассказать обо всем в двух словах это не наш метод и поэтому давайте все же разберемся с nofollow и noindex основательно и со всеми подробностями, ибо KtoNaNovenkogo.ru в первую очередь — блог для начинающих вебмастеров, интересы которых я обязан ставить во главу угла.

Ссылочное ранжирование и статический вес — две важные функции обратных ссылок

Поэтому я сейчас немного подпущу «воды», как выражаются некоторые господа в комментариях, и попробую на пальцах и абстрактных примерах показать, как именно работали теги nofollow и noindex до описанных выше изменений и как они работают сейчас. Ну, и попробуем понять как закрыть от индексации ссылки при текущем раскладе и можно ли это вообще сделать.

Да, и сразу оговорюсь, что мое мнение ни в коей мере не является абсолютной истиной, ибо оно лишь выражает мою точку зрения на данную проблему с учетом поисковыми системами тегов nofollow и noindex и, естественно, может быть ошибочным в силу различных причин. Поэтому в комментариях

Скачать последнее издание этого учебника — http://www.seobuilding.ru/seo-a-z.php

«SEO: Поисковая Оптимизация от А до Я» — Средний уровень => Глава VI. Индексация сайта

приветствуется оспаривание данной теории, но все же, желательно, чтобы это было хоть немного аргументированно. Заранее спасибо всем комментаторам, ибо в споре рождается истина.

Итак, давайте сначала вернемся немного в прошлое и посмотрим, как можно было с помощью тегов nofollow и noindex закрыть от индексации ссылки (чаще всего все же пытаются закрыть от индексации внешние ссылки, ибо они способствуют утеканию статического веса с сайта, но об этом поговорим чуть позже).

Ссылки для поисковых систем выполняют сразу две основных функции, помогающих поисковикам формировать наиболее релевантную поисковую выдачу. P.S. Здесь я уже начал употреблять терминологию SEO и для того, чтобы вам было понятнее о чем идет речь, просмотрите предварительно эту публикацию — Как продвигать сайт начинающему вебмастеру .

Так вот, тексты ссылок, которые называют еще анкорами, позволяют поисковым системам проводить так называемое ссылочное ранжирование , существенно влияющее на положение сайта в поисковой выдаче. Именно по этой причине для продвижения сайта по какому-либо поисковому запросу (особенно по высокочастотным и среднечастотным запросам , ибо для продвижения по низкочастотным запросам вообще может не понадобиться покупка внешних ссылок) оптимизаторы стараются закупить как можно больше обратных ссылок с текстами (анкорами), содержащими ключевые слова из того запроса, по которому продвигается данная страница сайта.

Читайте так же:
Можно ли ставить счетчик с датчиком температуры

В свое время ряд энтузиастов сделали так, что по запросу «жалкий неудачник» в Google открывался сайт тогдашнего президента Америки Джорджа Буша младшего. Что примечательно, на самом сайте вообще не встречалось данное словосочетание, но зато на этот сайт была проставлена уйма обратных ссылок с

текстом (анкором) «жалкий неудачник», в результате чего вышел такой казус. Сейчас уже такой фокус не пройдет, ибо ссылочное ранжирование не имеет такого колоссального влияния на ранжирование сайта и нужно, чтобы и на самом сайте Буша встречалась эта фраза.

Но на этом роль ссылок в поисковом продвижении сайта не заканчивается, ибо все поисковики в обязательном порядке для каждой страницы каждого отдельно взятого сайта рассчитывают так называемый статический вес . Возможно, что разные поисковые системы рассчитывают статический вес страниц чуть по разному, но суть остается не измененной — статический вес передается странице только по ссылке и при этом не учитывается текст (анкор) этой ссылки.

Правда, любая страница (документ, как их именуют поисковики) сразу после своего появления (индексации ее поисковыми системами) имеет изначальный минимальный статический вес, который может быть неограниченно увеличен за счет входящих внешних и внутренних ссылок на эту страницу.

Тут ключевым моментом является то, что статический вес передается не только внешними ссылками ,

но и внутренними.

Причем, страница (документ), ссылаясь на другие внешние или внутренние страницы, вовсе не теряет свой собственный статический вес, который целиком и полностью зависит только от количества и качества входящих на нее ссылок. Под качеством я подразумеваю собственный статический вес страниц доноров (доноры — те страницы, с который проставлены ссылки на ваш документ, который в этом случае выступает акцептором).

Извините за многословие, но объяснять понятно и при этом кратко я не умею, ибо для этого нужен талант. Продолжим развивать нашу мысль. Помните в школе когда-то были популярны задачки про бассейн с несколькими входящими и исходящими трубами? Там еще нужно было рассчитать толи время наполнения бассейна, толи уровень воды в нем. Но не суть важно. Просто я хочу взять в качестве абстрактного примера для пущей наглядности именно такой бассейн, да не простой, а с рядом допущений.

Каждую страницу сайта можно будет представить как отдельный бассейн, в который будет подводиться вода по ряду труб разного диаметра (наши входящие внутренние и внешние ссылки из документов с разным статическим весом), а так же будет ряд труб, по которым вода побежит на страницы вашего же

Скачать последнее издание этого учебника — http://www.seobuilding.ru/seo-a-z.php

«SEO: Поисковая Оптимизация от А до Я» — Средний уровень => Глава VI. Индексация сайта

или же какого-либо другого сайта (исходящие внутренние и внешние ссылки). Уровень же воды в бассейне будет эквивалентен статическому весу, набранному данным документом (вебстраницей вашего ресурса).

Допущение же будет состоять в том, что вода, утекая по трубам исходящих ссылок, не будет уменьшать уровень воды в бассейне (статический вес документа). Вот именно на таком примере мы и рассмотрим для наглядности роль тегов nofollow и noindex (до и после произошедших изменений) и то, как можно закрыть от индексации ссылки.

Теперь смотрите внимательно. Допусти, что у нас с одной вебстраницы проставлено 4 внутренних ссылки и одна внешняя (в аналогии с бассейном это будет эквивалентно пяти исходящим трубам одинакового сечения). В результате, максимальный статический вес, который может передать этот документ (вебстраница), будет поделен ровно на 5 частей и лишь одна пятая этого веса передастся на каждую из 4 внутренних страниц вашего сайта, а одна пятая ссылочного веса уйдет по внешней ссылке.

Как закрыть от индексации ссылки (nofollow?)

А теперь представьте, что вы имеете возможность попросить поисковые системы не индексировать эту самую одну внешнюю ссылку (закрыть ее от индексации или в аналогии с бассейном — перекрыть вентиль на трубе, ведущей не на ваш сайт). Тогда максимальный статический вес документа, который он может передать, нужно будет делить уже не на 5 частей, а только на 4, что позволит внутренним страницам вашего ресурса получить несколько больший статический вес.

Вроде бы пустяк, но если у вашего ресурса тысяча страниц, а вы закроете от индексации несколько сквозных внешних ссылок (которые будут присутствовать на всех вебстраницах ресурса, например, ссылок со счетчиков посещений ), то суммарный прирост статического веса у документов вашего сайта будет ощутимым. А статический вес напрямую влияет на положение вашего сайта в поисковой выдаче при ранжировании (естественно, при прочих равных условиях оптимизации).

Так, думаю, что с вопросом, зачем закрывать внешние ссылки от индексации мы разобрались и теперь осталось только выяснить, а как закрыть ссылки от индексации? Раньше было все просто — заключаете ненужную вам ссылку в открывающий и закрывающий тег noindex, а в Html тег ссылки A прописываете атрибут nofollow, например, так:

В WordPress для автоматизации процесса закрытия от индексации всех внешних ссылок можно использовать, например, плагин WP-NoRef . При использовании этого плагина, если в тег ссылки прописать специальный класс, то внешняя ссылка останется открытой для индексации поисковыми системами. Это может понадобиться, например, при проставлении ссылки в постовом или рекламном обзоре.

И такой способ закрытия от индексации отлично работал. Статический вес не передавался по закрытой таким образом ссылке и внутренние страницы вашего сайта, в результате, получали несколько больший статический вес, чем в случае с открытой внешней ссылкой. Но так было раньше, а сейчас с закрытием ссылок от индексации все стало очень и очень проблемно, если не сказать больше — полная ж.

Но эта ж. касается только удержания статического веса на сайте, в то время как ссылка закрытая тегом nofollow по прежнему не будет учитываться поисковыми системами и тут важно понимать, что, например, в комментариях просто необходимо закрывать ссылки от индексации, ибо большое количество внешних ссылок на спамные ресурсы (вы в состоянии проверить все сайты комментаторов?) сделает ваш сайт тоже спамным в глазах поисковых систем.

Читайте так же:
Вебвизор не установлен код счетчика вебвизор

Скачать последнее издание этого учебника — http://www.seobuilding.ru/seo-a-z.php

«SEO: Поисковая Оптимизация от А до Я» — Средний уровень => Глава VI. Индексация сайта

Итак, вернемся к тому, что Google изменил алгоритм работы тега nofollow — теперь по ссылке, в которую вставлен nofollow, статический вес на документ передаваться не будет, но в то же время, это не увеличит долю статического веса передаваемого на внутренние страницы, по оставшимся открытым для индексации внутренним ссылкам. Такой вот финт ушами.

Если вернуться к нашему примеру с бассейном и трубами, то ситуация с nofollow и noindex может быть представлена следующим образом. Если исходящие из бассейна трубы приравнять к исходящим с ресурса внутренним и внешним ссылкам, то ту ситуацию, которая имела место быть раньше, можно представить как перекрывание вентиля на трубе, ведущей на другой ресурс. И при этом больше воды (статического веса) перетекало по оставшимся трубам (внутренним ссылкам).

А вот текущая ситуация с тегом nofollow и отношением к нему Google выглядит как выдирание трубы внешней ссылки с корнем — ссылочный вес уже не потечет на внешний ресурс, но и у нас в бассейне останется дырка, а следовательно, внутренние страницы вашего сайта по прежнему будут недополучать статического веса.

Как Яндекс учитывает nofollow и noindex

Это мы все говорили за Google, а как обстоит ситуация с использованием nofollow и noindex для Яндекса , ведь это наш незабвенный лидер поиска в рунете. Тут все много туманнее, ибо однозначных суждений нет по этому вопросу. Но похоже, что Яндекс, после того как стал учитывать nofollow в тегах ссылок, снял с тега noindex всякое влияние на индексацию или запрет индексации ссылок.

Теперь тег noindex служит одной единственно цели — закрывать от индексации в Яндексе и Рамблере некоторые фрагменты текста. И если использовать тег noindex для ссылок, то он просто запретит Яндексу индексировать текст (анкор) ссылки, а вот сама ссылка и передаваемый по ней статический вес по прежнему будут учитываться и браться в расчет.

Другой вопрос, как Яндекс учитывает nofollow ? Копирует ли он схему работы nofollow, которая была в Google до недавнего времени или же сразу взял на вооружение переделанный алгоритм расчета статического веса при наличии в ссылке тега nofollow. Лично я затрудняюсь ответить на этот вопрос, но полагаю, что стоит рассчитывать именно на худший вариант.

Тогда получается, что у нас с вами уже не осталось инструментария, позволяющего полноценно закрыть от индексации ссылки , да так, чтобы не было утечки статического веса с сайта в пустоту. По-прежнему мы можем закрыть от индексации целые страницы или ссылки на них с помощью мета тега Robots , но вот с отдельно взятыми ссылками возникают сложности.

Можно, конечно же, проставлять внешние ссылки через редиректы или джаву, но Google такие ссылки уже научился учитывать, а Яндекс если еще и не научился, то скоро обязательно научится. В связи с этим вообще не понятно как быть с внешними ссылками из комментариев и счетчиков посещений. Они по любому получается будут сосать статический вес с сайта в пустоту (при закрытии их от индексации nofollow), либо на ресурсы комментаторов или счетчиков (в случае отказа от использования nofollow).

Некоторые вебмастера, кстати, используют в комментариях не простой nofollow, а rel=»external nofollow» , хотя external тут вовсе не подразумевает закрытие внешних ссылок, а обозначает открытие ссылки во внешнем окне (аналог атрибута target=»_blank», который в XHTML стал не валидным, т.е. не соответствующим стандартам), но этот external работать будет только в связке еще и со специально написанным скриптом на javascript. В общем, это уже совсем из другой темы и к закрытию ссылки от индексации никакого отношения не имеет.

Собственно, я решил попробовать вообще убрать ссылки из комментариев и посмотреть как это повлияет на общее положение моего блога как в поисковой системе Google, так и в Яндексе. Если изменений в лучшую сторону не будет, то верну все как и было. Эксперимент получится, наверное, репрезентативным, ибо комментариев у меня около 6 000 и большинство из них имеют ссылку на ресурс комментатора.

Скачать последнее издание этого учебника — http://www.seobuilding.ru/seo-a-z.php

«SEO: Поисковая Оптимизация от А до Я» — Средний уровень => Глава VI. Индексация сайта

Если кому-то интересно, то убрать ссылки из комментариев WordPress довольно просто. Вам нужно будет подключиться к сайту по FTP и открыть на редактирование файл comments.php из папки с используемой вами темой WordPress . В этом файле вам нужно найти место, где будет прописан следующий кусочек кода:

и заменить его на чуть измененный вариант:

А так же, для того, чтобы убрать из формы добавления нового комментария в WordPress строчку для ввода URL, вам нужно будет удалить подобный участок кода:

Если приведенная мною теория окажется правдивой, то должно произойти постепенное увеличение накопленного на блоге статического веса, что не преминет сказаться на позициях сайта в поисковой выдаче Google, ну и возможно, Яндекса. В общем, поглядим.

Какие страницы следует закрывать от индексации

Индексирование сайта – это процесс, с помощью которого поисковые системы, подобные Google и Yandex, анализируют страницы веб-ресурса и вносят их в свою базу данных. Индексация выполняется специальным ботом, который заносит всю необходимую информацию о сайте в систему – веб-страницы, картинки, видеофайлы, текстовый контент и прочее. Корректное индексирование сайта помогает потенциальным клиентам легко найти нужный сайт в поисковой выдаче, поэтому важно знать обо всех тонкостях данного процесса.

В сегодняшней статье я рассмотрю, как правильно настроить индексацию, какие страницы нужно открывать для роботов, а какие нет.

Почему важно ограничивать индексацию страниц

Заинтересованность в индексации есть не только у собственника веб-ресурса, но и у поисковой системы – ей необходимо предоставить релевантную и, главное, ценную информацию для пользователя. Чтобы удовлетворить обе стороны, требуется проиндексировать только те страницы, которые будут интересны и целевой аудитории, и поисковику.

Читайте так же:
Счетчик меркурий 203 инструкция

Прежде чем переходить к списку ненужных страниц для индексации, давайте рассмотрим причины, из-за которых стоит запрещать их выдачу. Вот некоторые из них:

  1. Уникальность контента – важно, чтобы вся информация, передаваемая поисковой системе, была неповторима. При соблюдении данного критерия выдача может заметно вырасти. В противном случае поисковик будет сначала искать первоисточник – только он сможет получить доверие.
  2. Краулинговый бюджет – лимит, выделяемый сайту на сканирование. Другими словами, это количество страниц, которое выделяется каждому ресурсу для индексации. Такое число обычно определяется для каждого сайта индивидуально. Для лучшей выдачи рекомендуется избавиться от ненужных страниц.

В краулинговый бюджет входят: взломанные страницы, файлы CSS и JS, дубли, цепочки редиректов, страницы со спамом и прочее.

Что нужно скрывать от поисковиков

В первую очередь стоит ограничить индексирование всего сайта, который еще находится на стадии разработки. Именно так можно уберечь базу данных поисковых систем от некорректной информации. Если ваш веб-ресурс давно функционирует, но вы не знаете, какой контент стоит исключить из поисковой выдачи, то рекомендуем ознакомиться с нижеуказанными инструкциями.

PDF и прочие документы

Часто на сайтах выкладываются различные документы, относящиеся к контенту определенной страницы (такие файлы могут содержать и важную информацию, например, политику конфиденциальности).

Рекомендуется отслеживать поисковую выдачу: если заголовки PDF-файлов отображаются выше в рейтинге, чем страницы со схожим запросом, то их лучше скрыть, чтобы открыть доступ к наиболее релевантной информации. Отключить индексацию PDF и других документов вы можете в файле robots.txt.

Разрабатываемые страницы

Стоит всегда избегать индексации разрабатываемых страниц, чтобы рейтинг сайта не снизился. Используйте только те страницы, которые оптимизированы и наполнены уникальным контентом. Настроить их отображение можно в файле robots.txt.

Копии сайта

Если вам потребовалось создать копию веб-ресурса, то в этом случае также необходимо все правильно настроить. В первую очередь укажите корректное зеркало с помощью 301 редиректа. Это позволит оставить прежний рейтинг у исходного сайта: поисковая система будет понимать, где оригинал, а где копия. Если же вы решитесь использовать копию как оригинал, то делать это не рекомендуется, так как возраст сайта будет обнулен, а вместе с ним и вся репутация.

Веб-страницы для печати

Иногда контент сайта требует уникальных функций, которые могут быть полезны для клиентов. Одной из таких является «Печать», позволяющая распечатать необходимые страницы на принтере. Создание такой версии страницы выполняется через дублирование, поэтому поисковые роботы могут с легкостью установить копию как приоритетную. Чтобы правильно оптимизировать такой контент, необходимо отключить индексацию веб-страниц для печати. Сделать это можно с использованием AJAX, метатегом либо в файле robots.txt.

Формы и прочие элементы сайта

Большинство сайтов сейчас невозможно представить без таких элементов, как личный кабинет, корзина пользователя, форма обратной связи или регистрации. Несомненно, это важная часть структуры веб-ресурса, но в то же время она совсем бесполезна для поисковых запросов. Подобные типы страниц необходимо скрывать от любых поисковиков.

Страницы служебного пользования

Формы авторизации в панель управления и другие страницы, используемые администратором сайта, не несут никакой важной информации для обычного пользователя. Поэтому все служебные страницы следует исключить из индексации.

Личные данные пользователя

Вся персональная информация должна быть надежно защищена – позаботиться о ее исключении из поисковой выдачи нужно незамедлительно. Это относится к данным о платежах, контактам и прочей информации, идентифицирующей конкретного пользователя.

Страницы с результатами поиска по сайту

Как и в случае со страницами, содержащими личные данные пользователей, индексация такого контента не нужна: веб-страницы результатов полезны для клиента, но не для поисковых систем, так как содержат неуникальное содержание.

Сортировочные страницы

Контент на таких веб-страницах обычно дублируется, хоть и частично. Однако индексация таких страниц посчитается поисковыми системами как дублирование. Чтобы снизить риск возникновения таких проблем, рекомендуется отказаться от подобного контента в поисковой выдаче.

Пагинация на сайте

Пагинация – без нее сложно представить существование любого крупного веб-сайта. Чтобы понять ее назначение, приведу небольшой пример: до появления типичных книг использовались свитки, на которых прописывался текст. Прочитать его можно было путем развертывания (что не очень удобно). На таком длинном холсте сложно найти нужную информацию, нежели в обычной книге. Без использования пагинации отыскать подходящий раздел или товар также проблематично.

Пагинация позволяет разделить большой массив данных на отдельные страницы для удобства использования. Отключать индексирование для такого типа контента нежелательно, требуется только настроить атрибуты rel=»canonical», rel=»prev» и rel=»next». Для Google нужно указать, какие параметры разбивают страницы – сделать это можно в Google Search Console в разделе «Параметры URL».

Помимо всего вышесказанного, рекомендуется закрывать такие типы страниц, как лендинги для контекстной рекламы, страницы с результатами поиска по сайту и поиск по сайту в целом, страницы с UTM-метками.

Какие страницы нужно индексировать

Ограничение страниц для поисковых систем зачастую становится проблемой – владельцы сайтов начинают с этим затягивать или случайно перекрывают важный контент. Чтобы избежать таких ошибок, рекомендуем ознакомиться с нижеуказанным списком страниц, которые нужно оставлять во время настройки индексации сайта.

  1. В некоторых случаях могут появляться страницы-дубликаты. Часто это связано со случайным созданием дублирующих категорий, привязкой товаров к нескольким категориям и их доступность по различным ссылкам. Для такого контента не нужно сразу же бежать и отключать индексацию: сначала проанализируйте каждую страницу и посмотрите, какой объем трафика был получен. И только после этого настройте 301 редиректы с непопулярных страниц на популярные, затем удалите те, которые совсем не эффективны.
  2. Страницы смарт-фильтра – благодаря им можно увеличить трафик за счет низкочастотных запросов. Важно, чтобы были правильно настроены мета-теги, 404 ошибки для пустых веб-страниц и карта сайта.

Соблюдение индексации таких страниц может значительно улучшить поисковую выдачу, если ранее оптимизация не проводилась.

Как закрыть страницы от индексации

Мы детально рассмотрели список всех страниц, которые следует закрывать от поисковых роботов, но о том, как это сделать, прошлись лишь вскользь – давайте это исправлять. Выполнить это можно несколькими способами: с помощью файла robots.txt, добавления специальных метатегов, кода, сервисов для вебмастеров, а также с использованием дополнительных плагинов. Рассмотрим каждый метод более детально.

Читайте так же:
Кто установит счетчики ипу

Способ 1: Файл robots.txt

Данный текстовый документ – это файл, который первым делом посещают поисковики. Он предоставляет им информацию о том, какие страницы и файлы на сайте можно обрабатывать, а какие нет. Его основная функция – сократить количество запросов к сайту и снизить на него нагрузку. Он должен удовлетворять следующим критериям:

  • наименование прописано в нижнем регистре;
  • формат указан как .txt;
  • размер не должен превышать 500 Кб;
  • местоположение – корень сайта;
  • находится по адресу URL/robots.txt, при запросе сервер отправляет в ответ код 200.

Прежде чем переходить к редактированию файла, рекомендую обратить внимание на ограничивающие факторы.

  • Директивы robots.txt поддерживаются не всеми поисковыми системами. Большинство поисковых роботов следуют тому, что написано в данном файле, но не всегда придерживаются правил. Чтобы полностью скрыть информацию от поисковиков, рекомендуется воспользоваться другими способами.
  • Синтаксис может интерпретироваться по-разному в зависимости от поисковой системы. Потребуется узнать о синтаксисе в правилах конкретного поисковика.
  • Запрещенные страницы в файле могут быть проиндексированы при наличии ссылок из прочих источников. По большей части это относится к Google – несмотря на блокировку указанных страниц, он все равно может найти их на других сайтах и добавить в выдачу. Отсюда вытекает то, что запреты в robots.txt не исключают появление URL и другой информации, например, ссылок. Решить это можно защитой файлов на сервере при помощи пароля либо директивы noindex в метатеге.

Файл robots.txt включает в себя такие параметры, как:

  • User-agent – создает указание конкретному роботу.
  • Disallow – дает рекомендацию, какую именно информацию не стоит сканировать.
  • Allow – аналогичен предыдущему параметру, но в обратную сторону.
  • Sitemap – позволяет указать расположение карты сайта sitemap.xml. Поисковый робот может узнать о наличии карты и начать ее индексировать.
  • Clean-param – позволяет убрать из индекса страницы с динамическими параметрами. Подобные страницы могут отдавать одинаковое содержимое, имея различные URL-страницы.
  • Crawl-delay – снижает нагрузку на сервер в том случае, если посещаемость поисковых ботов слишком велика. Обычно используется на сайтах с большим количеством страниц.

Теперь давайте рассмотрим, как можно отключить индексацию определенных страниц или всего сайта. Все пути в примерах – условные.

Пропишите, чтобы исключить индексацию сайта для всех роботов:

Более 50% вебмастеров неправильно закрывают дубли страниц сайта. Как это делать правильно

Привет, друзья! По своей статистике я определил, что больше половины вебмастеров и оптимизаторов не совсем корректно закрывают от индексации дубли страниц. Итог — более долгое нахождение мусорных документов в выдаче. Как вариант — страницы в принципе остаются проиндексированными (не удается удалить).

Ниже я укажу, какие основные ошибки совершаются при попытке удаления дублей, а также разберу правильные методы запрета для популярных типов документов.

Я не буду останавливаться на вопросах: «Почему дубли — это плохо?» и «Как их искать?». Ответы на них вы можете прочитать в посте «Последствия возникновения и поиск дублированного контента». Сегодня акцентируется внимание на корректности того или иного способа для определенных видов страниц.

Ошибки при составлении правил для запрета индексирования

Все мы люди и можем совершать ошибки. Благо в данной теме обычно они не является критичными . Я выделил 4 основные причины, по которым встречаются некорректности.

  1. Использование сразу несколько способов закрытия. Иногда встречается, что вебмастер закрыл страницу в robots.txt, добавил в head meta name=»robots», а ниже, для пущей надежности rel=»canonical». Когда документ запрещен в роботсе, то поисковый паук не сможет просканировать его содержимое.
  2. Использование только одного метода — robots.txt. Если лет 5-7 назад это был практически единственный способ для удаления дублей, то сейчас он не является самым эффективным и универсальным.
  3. Когда правила, по которым запрещаются страницы, являются более общими и затрагивают нормальные документы. На мой взгляд, лучше написать 2 частных правила для конкретных параметров, чем одно общее, которое потенциально может затронуть качественный контент.
  4. Использование некорректного метода, который не подходит для данного типа документов (например, редирект для сортировок).

Не могу сказать, что если ваш оптимизатор использует только robots, то его стоит сразу уволить. Многое зависит от ресурсов и особенностей их индексирования. Методы запрета необходимо выбирать, исходя непосредственно из нюансов проекта.

Перехожу непосредственно к корректным способам, которые позволят удалить из поиска дубли и «мусор». Методы расставлены в порядке приоритета (1 — самый приоритетный).

1. Удаление

Если это возможно, в первую очередь, нужно удалить ненужные документы. Нет материала, значит ничего не надо запрещать . Это могут быть:

  1. категории интернет-магазина без товаров, которые не будут возобновляться;
  2. система тегов. Исключение — страницы меток, оформленные должным образом: действительно, интересны посетителям, имеют качественный title, description, небольшое описание. Другими словами, не просто список связанных материалов, а по-настоящему полноценная страница.
  3. Бесконечно вложенные URL. Это когда в урл можно добавлять бесконечное (или конечное) количество вложений. Например, документ site.ru/post/ может быть доступен по site.ru/post/post/post/. Запрет создания подобной структуры необходимо решать на уровне сервера и/или CMS (они должны отдавать 404-ошибку).

2. 301-редирект

Весь «мусор», который нельзя удалить нужно перенаправлять на основные документы. Для этого необходимо использовать 301-редирект. Каким типам страниц подходит данный метод?

  1. www и без www;
  2. со слешем на конце или без;
  3. фиды от RSS;
  4. Урлы с параметрами, не меняющие контент;
  5. аттачи (прикрепленные файлы);
  6. товары, доступные по разным URL (обычно из-за того, что находятся в разных категориях);
  7. дубли главной: site.ru/index.php, domen.ru/home.html и так далее;
  8. версия для печати (если ссылка на нее есть только в коде);
  9. первая страница пагинации. Дело в том, некоторые CMS создают дубли по URL site.ru/category/ и site.ru/category/page/1/ . То есть контент первой страницы пагинации обычно соответствует содержанию категории, но URL у них получаются разные.

3. Мета-тег meta name=»robots»

Когда документ нельзя удалить или перенаправить, в работу должен включаться именно мета-тег meta name=»robots», а не столь популярный robots.txt . Эти слова подтверждаются на практике — мой эксперимент по скорости удаления сайтов из индекса, а также в теории (ниже скриншот из справки Google).

Читайте так же:
7 требований расчетный счетчик

Данный метод подходит для страниц:

  1. сортировки (по цене, популярности и так далее);
  2. пагинации;
  3. с параметрами (когда меняется контент);
  4. фильтров (в случае, когда они не оформлены «качественным» образом, по типу тегов: выше писал об этом);
  5. версии для печати;
  6. CMS и дополнений (плагинов, хуков);
  7. поиска;
  8. профилей пользователей;
  9. мобильной версии, расположенных на поддомене.

В общем, meta name=»robots» должен использоваться во всех случаях, когда страницы не желательны для индекса поисковых систем, но желательны для посетителей. В данном пункте есть 2 уточнения:

1) Страницы, в которые добавлен этот мета-тег, не должны быть закрыты от индексации в robots.txt.

2) На многих сайтах некоторые материалы доступны только по одному пути. Например, карточки товаров доступны только со страниц пагинаций в категориях (sitemap не в счет). Если использовать стандартный запрещающий код:

то поисковому роботу будет сложнее добраться до карточек. Здесь необходимо указывать атрибут follow:

В таком случае поисковый паук не будет включать документ в индекс, но будет ходить по внутренним ссылкам и индексировать контент, находящимся за ними.

4. Атрибут rel=»canonical» элемента link

Если по каким-то причинам использование meta name robots невозможно, то на помощь приходит известный атрибут rel=»canonical». Он помогает указать индексирующему роботу основную (каноническую) страницу. Для этого на неканонических документах в рамках тега head необходимо указать следующий код с указанием URL канонического документа.

Данный атрибут менее предпочтителен, так как поисковые алгоритмы берут его в расчет в качестве только лишь рекомендательного (поэтому meta name=»robots» использовать приоритетнее). Именно поэтому, когда я тестировал AMP-страницы в блоге, они-то появлялись, то пропадали из индекса Яндекса.

Атрибут может подойти для запрета индексирования следующих типов страниц:

  1. сортировки;
  2. AMP;
  3. имеющие параметры в URL;
  4. пагинации (в качестве канонической указывается первая или основная: например, категория);
  5. версии для печати.

5. Robots.txt

Ранее самый популярный способ запрета индексации оказался в моем рейтинге лишь на 5-й позиции . Он по-прежнему хорошо работает в Яндекс, но неважно в Google. В силу своей неуниверсальности он и оказался на данной позиции.

Что-либо запрещать в robots.txt стоит тогда, когда все предыдущие методики были реализованы, но остался «мусор», который запретить не получилось. Обычно на «закуску» остаются страницы:

  1. с параметрами;
  2. CMS и плагинов;
  3. AMP (только для робота Яндекса до момента его поддержки данного формата);
  4. мобильной версии на отдельном поддомене (полный запрет + указание host основного проекта).

6. Ajax

Иногда необходимо закрыть от индексации не всю страницу, а только ее часть. В этом и поможет Ajax. Например, я уже давно закрывал в блоге сайдбар и комментарии. Поисковые технологии не стоят на месте. Google заявлял, что он научился индексировать ajax, но мой сайдбар по-прежнему отсутствует в сохраненных копиях как Гугла, так и Яндекса. Можно считать эту технологию на данный момент вполне рабочей .

Использовать Ajax можно для больших сквозных элементов: меню, повторяющийся текст. Прежде чем применять данную технологию, необходимо взвесить все «за» и «против». Так, к примеру, удалив из индекса основное меню сайта, можно лишиться веса на категориях.

Отдельного внимания заслуживает связка Ajax+JQuery. Она отлично прячет от поисковиков ссылки (как внутренние, так и внешние). Для пользователей линки показываются как обычные, а в коде они оформляются в теге span (вместо a), то есть просто текстом.

7. Noindex и rel=»nofollow»

Данные теги также хорошо всем известны. Я их объединил в один пункт.

1) (валидный вариант ) понимает только Яндекс. Предназначение — закрытие служебных участков текста. Если в поисковой выдаче зеркала Рунета в сниппетах показывается контент, например, из участков меню, то их стоит «обернуть» в noindex.

Сейчас тег активно используют в борьбе с алгоритмом Баден-Баден. В большинстве других ситуациях он малопригоден и не универсален. Некоторые применяют noindex, чтобы закрыть внешние ссылки, но подобное, конечно, не совсем корректно. Для этого существует следующий тег.

2) Атрибут rel=»nofollow» элемента a. Данный тег добавляется к ссылкам, чтобы они не учитывались поисковыми системами.

Основная ошибка вебмастеров — применение nofollow для внутренних линков. Я рекомендую применять атрибут только для исходящих линков.

8. Параметры URL, X-Robots-Tag и rel=»alternate»

Менее популярные варианты. Но раз у меня обзор всех методов, то я их решил включить .

1) Настройка индексирования параметров URL в Google Search Console. Если у вас проект с большим количеством параметров в урлах (интернет-магазин, форум), то «Гугл.Вебмастер» предоставляет возможность настройки их индексирования.

Новичкам я бы рекомендовал здесь ничего не трогать, а опытным вебмастерам и оптимизаторам, как минимум, проверить параметры и статус их индексирования.

2) X-Robots-Tag — своеобразный серверный аналог meta name=»robots». Правила использования такие же, только тег является http-заголовком (отдается при ответе сервера).

3) rel=»alternate» — данный тег рекомендует использовать Яндекс для мобильных страниц, которые расположены на поддомене. В нем необходимо указать URL полной версии документа. На самом деле, я бы не советовал использовать мобильную версию проекта на отдельном поддомене. На мой взгляд, с таким вариантом больше проблем. Адаптивный дизайн будет куда лучше .

На сегодня все! Теперь вы знаете, что к популярному robots.txt не нужно обращаться в первую очередь. Сначала нужно удалить мусорный контент, затем настроить 301-редиректы, указать для дублей meta name=»robots» или rel=»canonical», а уже потом прописывать директивы в robots.txt.

Необходимо уточнить, что в посте я описывал популярные случаи, хотя в оптимизации сайтов не редко встречаются и уникальные или редкие ситуации. Если вам попадались такие, то опишите их в комментариях — будем вместе разбираться, каким образом их корректнее закрыть от индексации .

Может быть, вы знаете другие методы удаления дублей и «мусора». Буду рад вашим отзывам и дополнениям!

P.S. Чуть не забыл про конкурс к предыдущему посту . Спасибо всем приславшим свои варианты! Победитель — Жека.

Жду номер R-кошелька на почту (можно найти в контактах) с e-mail, который был указан в комментарии.

голоса
Рейтинг статьи
Ссылка на основную публикацию
Adblock
detector