Robots.txt — Настраиваем правильно!

Robots.txt- Настраиваем правильно!

Всем привет!В этом уроке будем изучать работу файла robots.txt а так же учимся правильно настраивать. Узнаем как в robots.txt запретить индексацию страницы или каталога.Открывая роботс, поисковик смотрит куда ему можно а куда нет и только потом заходит на ваш сайт и начинает бегать по нему с учетом запретов в robots.txt. Файл размещен в корневой папке вашего сайта, создать его можно простым блокнотом.Работа файла robots.txt неоднозначна, Яндекс например и без него отфильтрует лишний контент, особенно на популярных CMS, а вот Гугл наоборот может проигнорировать запрещающие директивы. Помимо запрета на индексацию, не забывайте , что robots.txt облегчит жизнь поисковикам что несомненно скажется на скорости индексации вашего сайта , использовать его нужно, поэтому вперед к разбору полетов !

User-agent в robots.txt

Содержимое файла начинается со строки:User-agent:

Эта строка говорит для какого поискового робота предназначены следующие после нее запреты. Если вписать * звездочку после “:”

User-Agent: *

User-Agent: *

Это говорит что последующие запреты будут учитываться всеми роботами.Можно вписать название конкретного поисковика, например вот строка для Яндекса:

User-agent: Yandex

User-agent: Yandex

Список остальных поисковиков:

Googlebot

Yandex

StackRambler

Mail.Ru

WebAlta

Писать название робота в одну строчку в директиве user-agent нельзя. Для каждого робота должна быть отдельная директива, после которой следуют строки запрета. В этом примере мы запрещаем Гугл и Яндексу индексировать разные каталоги для каждого поисковика в отдельности:

User-agent: Yandex

Disallow: /images

Disallow: /files/

User-agent: Googlebot

Disallow: /video

Disallow: /files/

User-agent: Yandex

Disallow: /images

Disallow: /files/

User-agent: Googlebot

Disallow: /video

Disallow: /files/ robots_disallow

Запрет индексации – директива Disallow

Директива disallow как единственная и основная команда для поисковика. Именно она говорит поисковому роботу – сюда нельзя! Каталоги и страницы прописанные в директиве disallow не будут индексироваться поисковыми роботами. Выглядит она так:

Disallow: /script/

Disallow: /script/

В данном примере мы запретили индексацию каталога “script”. Название каталога помещено в два слеша /название каталога/, такая конструкция говорит о том что поисковик не будет посещать каталог “sitename.ru/script”.

Но если например с главной страницы будет ссылка типа “sitename.ru/script/stranica.html” – он ее проиндексирует. Конструкция с слешем / в конце даст команду что лазить в каталоге не нужно, но такая конструкция не запретит индексацию страниц в данном каталоге на которые ссылаются страницы без запрета.

А вот такая конструкция, без слеша в конце :

Disallow: /script

Disallow: /script

Запретит индексировать все страницы и файлы которые начинаются со строки: /script. Таким образом абсолютно все файлы в данном каталоге попадут под запрет: /script/file.html, /script/bin/article.html, /script.html и т.д.

Я думаю вам понятно, все что начинается с /script не будет индексироваться.

Запрет конкретной страницы прописывается так:

Disallow: /default.htm

Disallow: /script/page.html

Disallow: /default.htm

Disallow: /script/page.html

То есть после Disallow: прописываем фактический полный путь к файлу или странице с расширением страницы включительно.

Как запретить индексировать все каталоги и файлы кроме одного?

Здесь к сожалению все нужно прописывать в ручную, за исключением Яндекса. Яндекс понимает команду allow в robots.txt,

User-agent: Yandex

Allow: /articles

Disallow: /

User-agent: Yandex

Allow: /articles

Disallow: /

Такая конструкция запретит индексировать все на сайте кроме адреса начинающегося с /articles который мы прописали в Allow

После редактирования файла robots.txt вы можете проверить ваши запреты в Яндекс.Вебмастер, заходите в “Настройки индексирования” – “Анализ robots.txt”.

Символы * и $ в выражениях Robots.txt

Символ * – это любая вложенность и последовательность символов. Например нам надо закрыть от индексации любой адрес страницы содержащий “/comment”, site.ru/stat/comment, site.ru/comment, site.ru/all/stat/comment, то перед слешем / ставим знак *, в данном случае слеш так же учитывается так как знак стоит перед ним

Disallow: */comment

Disallow: */comment

Если мы хотим запретить индексацию файлов по их расширению, то есть окончанию , можно вписать так:

Disallow: *.html

Disallow: *.html

Такое выражение запретит индексировать все адреса заканчивающиеся на .html

Так, теперь про символ $, щас постараюсь максимально просто объяснить , символ доллара запрещает конкретный набор символов но не его последующее продолжение, если мы напишем так:

Disallow: /comment

Disallow: /comment

То все что после /comment индексироваться не будет, а если мы добавим знак

Disallow: /comment$

Disallow: /comment$

То здесь мы как бы говорим , все что до доллара конкретно,фактически, то есть учитываем только текст до доллара, к примеру адрес /comment.php – проиндексируется, так как мы запретили только /comment

А если испольовать и * и

Disallow: /comment*$

Disallow: /comment*$

Такая конструкция запретит и /comment.php и /comment , так как * стоит после текста , но перед $ мы не будем учитывать вложенность каталогов.Всех вам благ!Подписывайтесь и ставьте лайки!

comments powered by HyperComments

Оставьте мне собщение