Источник:
Google палит темы
Предлагаю вашему вниманию перевод доклада директора по системе индексации Google, Dan’а Crow. Доклад сделан на основе третьей конференции SEMNE (Search Engine Marketing New England). Информация прямиком из Google, можно сказать из первых рук. С моими комментариями.
Что такое индексация? Dan начал свою презентацию с обсуждения, что значит “индексация” и как она производится Google’ом. В общих чертах, процесс индексации для для паука Google выглядит так: сначала робот смотрит файл robots.txt, чтобы узнать, куда ему не нужно идти, и далее проходит по разрешенным страницам. Прочитав страницу, паук находит содержащуюся на ней релевантную информацию. Потом робот проходит по каждой ссылке и повторяет процесс.
Растолкованный Robots.txt
Dan продолжил объяснять как использовать файл robots.txt для исключения страниц и директорий вашего сайта из очереди на индексацию, например папку cgi-bin. Он рассказал нам, что все основные поисковые системы имеют свои собственные команды для этого файла, но все поисковики работают над стандартизацией этих команд в недалеком будущем.
По поводу вопроса, чему паук уделяет больше внимания, он сказал, что есть более 200 факторов сканирования, при этом “релевантность” играет большую роль в большинстве из них.
Google все еще любит свой PageRank
Dan также обсудил важность PageRank‘а (настоящего, который знает только Google, а не тулбарного PR, которым только детей пугать). Он дал нам знать, что высококачественные входящие ссылки все еще один из самых важных факторов в плане индексации и ранжирования, и потом он продолжил объяснять, что создание сайта с уникальным контентом для пользователей — один из лучших способов достигнуть успеха. Он объяснил, как создание комьюнити единомышленников, постоянно повышающих популярность вашего сайта, приводит его к успеху.
Не спать. Теперь начнется кое-что интересное
Знали ли вы об этих тегах?
Нам также рассказали о некоторых примочках, о которых многие люди не знают ничего. Например, знали ли вы, что используя тег “nosnippet” вы можете сделать так, чтобы Google перестал показывать сниппет вашей страницы в выдаче поисковой системы? Также вы можете сделать так, чтобы Google перестал показывать кэш-версию страницы, используя тег “noarchive“? Dan не рекомендует использовать эти теги, поскольку сниппеты очень полезны для посетителей, также как и показ кэша. Как бы то ни было, Google понимает, что существуют такие обстоятельства, когда вы можете захотеть выключить эти опции.
Для справки: сниппет (snippet) — текст (могут быть и картинки), который в выдаче идет после ссылки на страницу. Это может быть текст из тега description или из тела документа, часто та область, где встречаются ключевые слова.
Полезные теги. Как сразу видно дорвей в выдаче? Правильно, в сниппете перемешаны ключевые слова… Прячем сниппет — и на наши доры идут даже умники… и абуз поменьше станет. может быть
Ссылка на синтаксис по новым тегам: контроль кэша и сниппета в Google. В двух словах, это просто новые мета-теги. А вот еще информация.
Потрясающие новости!
Google представил новый тег, названный “unavailable_after“, который позволит человеку сказать Google, когда конкретная страница будет более не доступна для индексации. Например, если вы имеете специальное предложение на вашем сайте, срок действия которого заканчивается к определенной дате, вы возможно захотите использовать тег “unavailable_after“, чтобы сообщить Google, когда перестать ее индексировать. Или возможно вы пишете статьи, которые бесплатны до какого-то момента, но потом переходят в платную область подписки вашего сайта. Тег unavailable_after для вас! Хорошая штука.
Инструменты для вебмастеров
Dan никак не мог наговориться, когда перечислял достоинства Webmaster Central tools. Я должен сказать, что это характерно для всех докладов Google, которые я слышал на различных конференциях. Самое главное — то, что они не шутят! Если вы еще не использовали инструменты для вебмастеров, вам следует это сделать, потому что они дают вам тонну информации о вашем сайте, например обратные ссылки, ключевые фразы, по которым люди находят ваш сайт, и многое, многое другое!
Растолкованные Sitemaps
Один из главных инструментов центра вебмастеров — это возможность предоставить Google карту сайта в формате XML. Dan сказал нам, что Google sitemap может быть использована, чтобы рассказать Google об адресах страниц, которые иначе будут недоступны из-за того, что не связаны ссылками с кем-либо еще. Он использовал термин “огороженный сад” (walled garden), чтобы описать множество перелинкованных (связанных ссылками) страниц, но на которые нет ссылок откуда-либо извне. Он сказал, что вы можете просто засабмитить адрес хотя бы одной из этих страниц в карту сайта (sitemap), и она приведет паука на все остальные страницы. Также он говорил о том, как удобно использовать sitemap для индексации страниц, которые могут быть доступны только через веб-формы (зачем их индексировать? что-то толковых вариантов в голову не приходит…). Позже он отметил, что хотя эти страницы и будут проиндексированы через sitemap, они все равно будут считаться страницами низкого качества, пока не наберут хоть какой-нибудь PageRank. Как бы то ни было, Google работает над тем, чтобы изменить такую ситуацию в будущем.
Flash и Ajax
В завершение, Dan заметил, что Google до сих пор не очень хорошо индексирует контент, содержащий Flash и/или Ajax. Он сказал, что следует ограничить эти технологии при организации контента, который должен быть проиндексирован. Он предоставил немного информации по поводу Scalable Inman Flash Replacement (sIFR), и объяснил, что если использовать sIFR по тому назначению, для которого он был создан, то производимый контент будет наилучшим вариантом для Google. (Дизайнеры, вперед!) Dan сказал, что Google надеется, что в скором времени индексация страниц, содержащих Flash, будет проходить более успешно.
Ужасные Supplemental Results
Конечно, одним из вопросов, которые не могли не задать, был вопрос о supplemental results, о том, что к ним приводит и как из них выйти. (Это вообще один из самых главных вопросов, которые я слышал на SEO/SEM конференциях). Dan рассказал нам о том, что такое supplemental results и как можно убрать оттуда различные URLы. Он объяснил, что по замыслу supplemental index — это индекс, в который попадают страницы с низким PageRank‘ом (настоящим) или те, которые редко обновляются. Эти страницы показываются в результатах поиска Google, только если в основном индексе не найдено достаточно релевантных вариантов. Есть хорошие новости: Google начинает сканировать supplemental index более часто, сводя на нет различие в скорости сканирования supplemental index и основного индекса. К тому же, чтобы вернуть ваши URLы в основной индекс, он посоветовал получить больше входящих ссылок ( Значит оригинальность контента тут ни при чем…).
Вот и все. Вопросы и свои варианты ответов пишем в комментариях.
P. S. Вот фотография знатока:
Dan — справа.
Источник — Блог Ющука Евгения Леонидовича «Конкурентная разведка»