как обезвредить плохие приметы
как
обустроить детскую комнату
как жили спартанцы
как
к нам пришел день святого валентина
1. spider (паук): браузероподобная программа, которая скачивает веб-страницы.
2. crawler : путешествующий паук, который автоматически идет по всем ссылкам, найденным на странице.
3. indexer (индексатор): слепая программа, которая анализирует веб-страницы, скаченные пауками.
4. the database (база данных): хранилище скаченных и обработанных страниц.
5. search engine results engine (система выдачи результатов): извлекает результаты поиска из базы данных.
Spider: паук – это программа, которая скачивает веб-страницы. он работает точно как ваш браузер, когды вы соединяетесь с веб-сайтом и загружаете страницу. паук не имеет никаких визуальных компонентов. то же действие (скачивание) вы можете наблюдать, когда просматриваете некоторую страницу и когда выбираете просмотр HTML-кода в своем браузере.
Crawler: как и паук скачивает страницы, он может раздеть страницу и найти все ссылки. это его задача – определять, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов.
Indexer: индексатор разбирает страницу на различные ее части и анализирует их. элементы типа заголовков страниц, заголовков, ссылок, текста, структурных элементов, элементов BOLD, ITALIC и других стилевых частей страницы вычленяются и анализируются.
Database: база данных – это хранилище всех данных, которые поисковая система скачивает и анализирует. это часто требует огромных ресурсов.
Search Engine Results Engine: о, самое сердце зверя. именно система выдачи результатов решает, какие страницы удовлетворяют запросу пользователя. это та часть поисковой системы, с который вы имеете дело, осуществляя поиск.
когда пользователь вводит ключевое слово и делает поиск, поисковая система отбирает результаты на основании постоянно меняющихся критериев. алгоритмом называется метод, по которому она принимает решение. профессиональные оптимизаторы (SEO) иногда употребляют термин algos - это и есть то, о чем мы говорим.
не смотря на то, что поисковые системы сильно изменились, большинство до сих пор отбирают результаты поиска на основании примерно следующих критериев:
• Title (заголовок): присутствует ли ключевое слово в заголовке?
• Domain/URL (домен/адрес): присутствует ли ключевое слово в имени домена или в адресе страницы?
• Style (стиль): жирный (STRONG или B), курсив (EM или I), заголовки HEAD: если место на странице, где ключевое слово использовано в жирных, курсивных или Hx (H1, H2,…) текстовых заголовках?
• Density (плотность): как часто ключевое слово употреблено на странице? количество ключевых слов относительно текста страницы называется плотностью ключевого слова.
• MetaInformation (мета данные): хотя многие отрицают, некорые поисковые системы до сих пор читают мета ключевые слова (meta keywords) и мета описания (meta description).
• Outbound Links (ссылки наружу): на кого есть ссылки на странице и встречается ли ключевое слово в тесте ссылки?
• Inbound Links (внешние ссылки): кто еще в интернет имеет ссылку на данный сайт? каков текст ссылки? это называется внестраничный критерий, потому что автор страницы не всегда может им управлять.
• Insite Links (ссылки внутри страницы): на какие еще страницы данного сайта содержит ссылки эта страница?
как видите, поисковой системе необходимо делать множество уточняющих запросов, используя скаченную страницу целиком.
это сокращенное описания функционирования поисковой системы.
автор : бретт табке.
перевод : dimok.ru
источник : http://www.searchengines.ru