Автор статьи:
Правила описания файла robots.txt и мета-тэга Robots –
>httр://www.yаndex.ru/info/webmaster2.html
Принципы поиска www.yаndex.ru
- Поиск производится по тексту документа, заголовку документа (<title>), ключевым словам документа(<meta name=keywords content=…>), описанию документа (<meta name=description content=…>) и полям alt для изображений (<img src=… alt=”…”>).
- индексируются все документы на сайте (к которым можно прийти по ссылкам с начального адреса или с внешних ссылок). Не индексируются страницы и каталоги указанные в файле robots.txt (должен находится в корневой директории сайта). С помощью мета-тэга Robots (<meta name=robots content=…>) можно управлять индексацией документа.
- Определение соответствия документа запросу пользователя имеет следующие особенности:
- наивысший приоритет имеет текст указанный в заголовке документа. сам заголовок рекомендуется делать не более 20-25 слов.
- слово встречающееся в основном тексте документа и содержащиеся в первых 50-ти ключевых слов документа повышает соответствие документа запросу пользователя
- для поиска имеет значение размер документа, т.е. слово встречающееся в маленьком документе будет иметь больший приоритет, чем то же самое слово, но в большом документе, поэтому дается совет делать разбивать большие документы на несколько частей.
- чтобы Яндекс определял последовательность букв как слово надо не набирать слова вразрядку (каждая буква через пробел), избегать набора слов только большими буквами, точки и запятые ставить сразу после слова, а после них ставить пробел.
- Определенную часть текста Яндекс может признать спамом (огромное количество ключевых слов, текст написанный мелким шрифтом, цветом фона и пр.) из-за чего снижает соответствие документа запросу пользователя.
- Важным моментом с точки зрения Яндекса является дата последнего изменения страницы (http-заголовок Last-Modified) и charset страницы, которые выводятся при запросе пользователя как справочная информация о странице.
Принципы поиска www.aport.ru
- Поиск производится по тексту документа, заголовку документа (<title>), ключевым словам документа (<meta name=keywords content=…>), описанию документа (<meta name=description content=…>) и полям alt для изображений (<img src=… alt=”…”>). Также считаются принадлежащими документу тексты ссылок на эту страницу (<a href=…>text</a>), с самого сайта и внешних по отношению к сайту страниц, и описание сайта, составленное редакторами Апорта.
- индексируются все документы на сайте (к которым можно прийти по ссылкам с начального адреса или с внешних ссылок). Не индексируются страницы содержащие в URL знак ‘?’ (страницы автоматически создающиеся на стороне сервера по параметрам присланым в запросе). Не индексируются страницы и каталоги указанные в файле robots.txt (должен находится в корневой директории сайта), имя робота для Апорта в этом файле – Aport. С помощью мета-тэга Robots (<meta name=robots content=…>) можно управлять индексацией документа.
- Ключевые слова документа не имеют особого приоритета при определении соответствия документа запросу пользователя перед другими частями документа.
- Множественное повторение одного и того же слова в тексте документа не влияет на определение соответствия документа запросу пользователя.
- Принципы определения соответствия документов запросу пользователя насайте Апорта описаны так:
- количество искомых слов в тексте документа (в процентах), расстояние между поисковыми словами в тексте документа
- место в тексте, где встречаются поисковые слова (заголовок, описание,мета-таг и т.п.)
- внешний вид шрифта, которым набраны в тексте искомые слова (размер, жирность, цвет)
- количество ссылок из интернета на данный документ – использование искомого слова в тексте ссылок из интернета на данный документ
Принципы поиска http://www.rambler.ru/
- Поиск производится только по тексту документа. Ключевые слова и описания документа (<meta name=keywords content=…> и <meta name=description content=…>) игнорируются. Максимальный размер индексируемого документа – 200Кб, все документы большего размера отсекаются по этому размеру.
- индексируются все документы на сайте (к которым можно прийти по ссылкам с начального адреса или с внешних ссылок). Не индексируются страницы и каталоги указанные в файле robots.txt (должен находится в корневой директории сайта). Для управления индексацией текста в документе можно использовать тэги <index> и <noindex>. Из индекса исключаются слова, встреченные Rambler’ом более чем на 800.000 документов.
- Значимость слова увеличивается, если оно находится внутри тэгов (в порядке убывания значимости):
– <title>
– <h1>..<h6>
– <address>
– <b>, <strong>
Чем ближе к началу текста располагается слово, тем более увеличивается его значимость. - Текст, написанный цветом фона, не учитывается – об этом сказано что “не следует использовать”.