Самые комментируемые
- Манимастер 5 отзывы http://moneymaster.ru/ (56)
- SeoPult, отзывы. (51)
- Что мне не понравилось у hostpro (26)
- Аккаунт. Как создать аккаунт, что такое аккаунт? (26)
- Работа с Маркетгидом, отзывы. (26)
- Сегодня окончательно приняли решение о переезде с хостинга hostpro.ua (24)
- KirHost.com - ужасный хостинг, сайты постоянно лежат (21)
- Гиперхостинг (18)
- ABCname.com.ua - надежные Интернет технологии (16)
- Отображение иконки сайта в выдаче (13)
Последние комментарии
- Хорош ресурс тем, что инструментами системы получа...
- Для нас вести рекламные кампании с аккаунта систем...
- Вели продвижение, рекламируясь через кабинеты веб-...
- Привет. Попробуйте обязательно, если есть нулевой ...
- Он действительно попроще аналогичных сервисов, при...
- Норм машина. Иногда можно сгрузить на нее парочку ...
- Мне в Сеопльте круто провели аудит сайта, професси...
- Правильный контекст это львиная доля успеха в прив...
- Модуль контект-маркетинга вообще отличный. Всестор...
- Что за бред? :lol:
правильный файл robots txt для яндекса и для google. Директива disallow - запрет индексации robots txt |
![]() |
![]() |
![]() |
Автор: hostpartner |
20.02.2011 18:29 |
В принципе это все собрано из хелпов которые вы должны были прочесть прежде чем делать свой первый сайт. В простейшем файле robots.txt используются два правила: Эти две строки рассматриваются как одна запись в этом файле. Можно включить любое необходимое число записей. В одну запись можно включить несколько строк Disallow и несколько User Agent. Каждый раздел файла robots.txt обрабатывается отдельно; содержание предыдущих разделов не учитывается. Рассмотрим пример. User-Agent: Googlebot В этом примере для поискового робота Googlebot будут запрещены только URL-адреса, включающие /katalog2/. User Agent - это специальный робот поисковой системы. В базе данных роботов Интернета перечислено множество основных роботов. Можно задать запись для применения к конкретному роботу (указав его название) или указать, что она должна применяться ко всем роботам (с помощью звездочки). Запись, которая применяется ко всем роботам, выглядит следующим образом: В Google используются несколько различных роботов (User Agent). Робот, используемый для поиска в Интернете, называется Googlebot. Другие наши роботы, например Googlebot-Mobile и Googlebot-Image, следуют правилам, заданным для робота Googlebot, однако для них можно указать отдельные правила. В строке Disallow перечисляются страницы, которые необходимо заблокировать. Можно указать конкретный URL или шаблон. Ввод должен начинаться с косой черты (/). User-agent: MediaPartners-Google Помните, что в командах учитывается регистр. Например, команда Disallow: /junk_file.asp заблокирует файл http://www.example.com/junk_file.asp, но пропустит файл http://www.example.com/Junk_file.asp. Поисковый робот Googlebot игнорирует пробелы (в пустых строках) и неизвестные директивы в файле robots.txt. Googlebot поддерживает отправку файлов Sitemap через файл robots.txt. Робот Googlebot (но не все поисковые системы) соблюдает некоторые типы соответствия шаблону. Это соответствие шаблону можно использовать вместе с командой Allow. Например, если знак ? обозначает идентификатор сеанса, можно исключить содержащие этот символ URL-адреса, чтобы робот Googlebot не сканировал повторяющиеся страницы. Но URL-адреса, заканчивающиеся на ?, могут являться версией страницы, которую необходимо включить в индекс. В таком случае можно создать в файле robots.txt следующую запись: Строка Disallow:/ *? блокирует доступ ко всем URL-адресам со знаком вопроса (то есть ко всем URL-адресам, которые начинаются с названия домена и содержат цепочку, внутри которой встречается знак вопроса). Строка Allow: /*?$ разрешает доступ ко всем URL-адресам, оканчивающимся знаком вопроса (то есть ко всем URL-адресам, которые начинаются с названия домена и содержат цепочку, заканчивающуюся на ?, после которого нет других символов). Использование robots.txt Что такое файл robots.txt Robots.txt — текстовый файл, расположенный на сайте, который предназначен для роботов поисковых систем. В этом файле веб-мастер может указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждой поисковой системы по отдельности.
Воспользуйтесь любым текстовым редактором (например, Блокнотом или WordPad'ом), создайте файл с именем "robots.txt" и заполните его в соответствии с представленными ниже правилами. После этого необходимо загрузить файл в корневой каталог вашего сайта. Чтобы проверить правильность обработки вашего файла robots.txt, воспользуйтесь анализатором файла robots.txt. Директива User-agent Управлять доступом робота Яндекса к вашему сайту вы можете при помощи файла robots.txt, который должен быть размещен в корневой директории сайта. Робот Яндекса поддерживает стандарт описания http://www.robotstxt.org/wc/norobots.html с расширенными возможностями, описанными ниже. В роботе Яндекса используется сессионный принцип работы, на каждую сессию формируется определенный пул страниц, которые планирует закачать робот. Сессия начинается с закачки robots.txt сайта, если его нет, он не текстовый или на запрос робота возвращается HTTP-код отличный от '200', считается, что доступ роботу не ограничен. В самом robots.txt проверяется наличие записей, начинающихся с 'User-agent:', в них ищутся подстроки 'Yandex', либо '*' (регистр значения не имеет), причем, если обнаружено 'User-agent: Yandex', директивы для 'User-agent: *' не учитываются. Если записи 'User-agent: Yandex' и 'User-agent: *' отсутствуют, считается, что доступ роботу не ограничен.
Чтобы запретить доступ робота к некоторым частям сайта или сайту целиком, используйте директиву 'Disallow'. Примеры: User-agent: Yandex Примечание: Недопустимо наличие пустых переводов строки между директивами 'User-agent' и 'Disallow' ('Allow'), а также между самими 'Disallow' ('Allow') директивами. Кроме того, в соответствии со стандартом перед каждой директивой 'User-agent' рекомендуется вставлять пустой перевод строки. Символ '#' предназначен для описания комментариев. Все, что находится после этого символа и до первого перевода строки не учитывается. Чтобы разрешить доступ робота к некоторым частям сайта или сайту целиком, используйте директиву 'Allow'. Примеры: Если для данной страницы сайта подходит несколько директив, то выбирается первая в порядке появления в выбранном User-agent блоке. Примеры, если: Директивы Allow-Disallow без параметров. Отсутствие параметров у директивы трактуется следующим образом: User-agent: Yandex При указании путей директив Allow-Disallow можно использовать спецсимволы '*' и '$', задавая, таким образом, определенные регулярные выражения. Спецсимвол '*' означает любую (в том числе пустую) последовательность символов. Примеры: Директива Sitemap. Если вы используете описание структуры вашего сайта в формате sitemaps.xml, и хотите, чтобы робот private # запрещает не только '/private', Спецсимвол '$'. По умолчанию к концу каждого правила, описанного в robots.txt, приписывается '*', например: чтобы отменить '*' на конце правила, можно использовать спецсимвол '$', например: или User-agent: * Sitemap: http://mysite.ru/site_structure/my_sitemaps1.xml Робот запомнит пути к sitemaps.xml, обработает файлы и будет использовать результаты при последующем формировании сессий закачки. Директива Host. Если ваш сайт имеет зеркала, специальный робот зеркальщик определит их и сформирует группу зеркал вашего сайта. В поиске будет участвовать только главное зеркало. Вы можете указать его у всех зеркал при помощи robots.txt, используя директиву 'Host', определив в качестве ее параметра имя главного зеркала. Директива 'Host' не гарантирует выбор указанного главного зеркала, тем не менее, алгоритм при принятии решения учитывает ее с высоким приоритетом. Пример: Важно: в целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву 'Host' необходимо добавлять в группе, начинающейся с записи 'User-Agent', непосредственно после директив 'Disallow'('Allow'). Аргументом директивы 'Host' является доменное имя с номером порта (80 по умолчанию), отделенным двоеточием. #2. #3. #4. Важно: параметр директивы Host обязан состоять из одного корректного имени хоста (т.е. соответствующего RFC 952 и не являющегося IP-адресом) и допустимого номера порта. Некорректно составленные строчки 'Host:' игнорируются. Примеры использования директивы Host: # domen.myhost.ru является главным зеркалом Если сервер сильно нагружен и не успевает отрабатывать запросы на закачку, воспользуйтесь директивой "Crawl-delay". Она позволяет задать поисковому роботу минимальный период времени (в секундах) между концом закачки одной страницы и началом закачки следующей. В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву "Crawl-delay" необходимо добавлять в группе, начинающейся с записи "User-Agent", непосредственно после директив "Disallow" ("Allow"). Поисковый робот Яндекса поддерживает дробные значения Crawl-Delay, например, 0.5. Это не гарантирует, что поисковый робот будет заходить на ваш сайт каждые полсекунды, но дает роботу больше свободы и позволяет ускорить обход сайта. Примеры: User-agent: * Директива Clean-param Если адреса страниц вашего сайта содержат динамические параметры которые не влияют на их содержимое (например: идентификаторы сессий, пользователей, рефереров и т.п.), вы можете описать их при помощи директивы 'Clean-param'. Робот Яндекса, используя эту информацию, не будет многократно перезакачивать дублирующуюся информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер. Например, на сайте есть страницы: параметр 'ref=' используется только для того, чтобы отследить с какого ресурса был сделан запрос и не меняет содержимое, по всем трем адресам будет показана одна и та же страница с книгой 'book_id=123'. Тогда, если в robots.txt указать: вот так: робот Яндекса сведет все адреса страницы к одному: Если на сайте доступна страница без параметров: То все сведется именно к ней, когда она будет проиндексирована роботом. Другие страницы вашего сайта будут обходиться чаще, так как нет необходимости обновлять страницы: Синтаксис использования директивы: В первом поле через '&' перечисляются параметры, которые нужно не учитывать. Во втором поле указывается префикс пути страниц, для которых нужно применить правило. Примечание: Префикс может содержать регулярное выражение в формате, аналогичном robots.txt, но с некоторыми ограничениями: можно использовать только символы A-Za-z0-9.-/*_. При этом * трактуется так же, как в robots.txt. В конец префикса всегда неявно дописывается '*', то есть: означает, что параметр s будет считаться незначащим для всех url-ов, начинающихся с /forum/showthread.php. Второе поле указывать необязательно, в этом случае правило будет применяться для всех страниц сайта. Регистр учитывается. Действует ограничение на длину правила — 500 символов. Например: Дополнительные примеры:
Директивы robots.txt, которые не упомянуты в данном описании, робот Яндекса не поддерживает. Необходимо помнить, что результат использования расширений формата robots.txt может отличаться от результата без них, а именно: User-agent: Yandex User-agent: Yandex User-agent: * User-agent: * Примеры использования расширенного формата robots.txt: User-agent: Yandex User-agent: Yandex При написании robots.txt необходимо помнить, что у робота есть разумное ограничение на его размер. Слишком большие robots.txt (более 32 Кб) считаются полностью разрешающими, то есть рассматриваются аналогично: Также разрешающими считаются robots.txt, которые не удалось закачать (например, по причине неправильных http-заголовков) или отдающие 404 ошибку. Формат файла robots.txt Формат файла robots.txt - особый. Он состоит из записей, каждая из которых состоит из двух полей: строки с названием клиентского приложения (user-agent), и одной или нескольких строк, начинающихся с директивы Disallow: Robots.txt должен создаваться в текстовом формате Unix. Большинство хороших текстовых редакторов уже умеют превращать символы перевода строки Windows в Unix. Либо ваш FTP-клиент должен уметь это делать. Для редактирования не пытайтесь пользоваться HTML-редактором, особенно таким, который не имеет текстового режима отображения кода. Строка User-agent содержит название робота. Робота Рамблера зовут: StackRambler поэтому если вы хотите создать инструкцию персольнально для нашего робота, то строка должна выглядеть следующим образом: Вы можете создать инструкцию для всех роботов: Поле Disallow: Вторая часть записи состоит из строк Disallow. Эти строки - директивы (указания, команды) для данного робота. В каждой группе, вводимой строкой User-agent, должна быть хотя бы одна инструкция Disallow. Количество инструкций Disallow не ограничено.Они сообщают роботу какие файлы и/или каталоги роботу неразрешено индексировать. Вы можете запретить индексацию файла или каталога. Следующая директива запрещает индексацию каталога /cgi-bin/: Внимание: точно так же и инструкции "Disallow: *", "Disallow: *.doc", "Disallow: /dir/*.doc" не запрещают ничего, поскольку файлов, имя которых начинается со звездочки или содержит ее, не существует! Использование регулярных выражений в строках Disallow, равно как и в файле robots.txt вообще, не предусмотрено. Записаная следующим образом директива запрещает индексацию файла index.htm находящегося в корне: К сожалению, инструкций Allow в файлах robots.txt не бывает. Поэтому даже если закрытых для индексирования документов очень много, Вам все равно придется перечислять именно их, а не немногочисленные "открытые" документы. Продумайте структуру сайта, чтобы закрытые для индексирования документы были собраны по возможности в одном месте. Если директива Disallow будет пустой, это значит, что робот может индексировать ВСЕ файлы. Как минимум одна директива Disallow должна присутствовать для каждого поля User-agent, чтобы robots.txt считался верным. Полностью пустой robots.txt означает то же самое, как если бы его не было вообще. Пустые строки и комментарии Пустые строки допускаются между группами инструкций, вводимыми User-agent. Инструкция Disallow учитывается, только если она подчинена какой-либо строке User-agent - то есть если выше нее есть строка User-agent. Любой текст от знака решетки "#" до конца строки считается комментарием и игнорируется. Пример: Следующий простой файл robots.txt запрещает индексацию всех страниц сайта всем роботам, кроме робота Рамблера, которому, наоборот, разрешена индексация всех страниц сайта. # Инструкции для робота Рамблера |
Комментарии
https://uploads.disquscdn.com/images/74c19609fcb394f5da1db59c0fbe9f8d684d823af78822218f2d45e313cc5a00.png
Мол весь сайт закрыт от индекса, хотя в самом файле robots.txt кажется проблем нет. Помогите советом, сайт молодой, да и я новичок в этом деле. https://uploads.disquscdn.com/images/497b88b7e42a449f8cbf8f8b8acd4fb62fa5b9620ce491ce3923e4a3e2c28b41.png Как же мне его таки открыть для индексации?
https://www.moyo.ua/kholodilnik-zanussi-zrt27100wa-zrt27100wa/48626.html
you may be a great author. I will ensure that I bookmark your blog and definitely wll come back very soon. I wan to
encourage continue your great posts, have a nice afternoon!
Take a look at my web page :: Caries and periodontist: http://stessay.com/tooth-pain/most-common-dental-problems-causes-and-prevention-tips/
RSS лента комментариев этой записи