[главная страница]
[как выбрать] [дом и семья] [авто - мото] [бизнес и работа] [развлечения] [любовь]
[как сделать] [компьютеры] [интернет] [интересное] [спорт] [дети]

как работают поисковые системы


как обезвредить плохие приметы
как обустроить детскую комнату
как жили спартанцы
как к нам пришел день святого валентина


поисковые системы состоят из пяти отдельных программных компонент:

1. spider (паук): браузероподобная программа, которая скачивает веб-страницы.

2. crawler : путешествующий паук, который автоматически идет по всем ссылкам, найденным на странице.

3. indexer (индексатор): слепая программа, которая анализирует веб-страницы, скаченные пауками.

4. the database (база данных): хранилище скаченных и обработанных страниц.

5. search engine results engine (система выдачи результатов): извлекает результаты поиска из базы данных.

Spider: паук – это программа, которая скачивает веб-страницы. он работает точно как ваш браузер, когды вы соединяетесь с веб-сайтом и загружаете страницу. паук не имеет никаких визуальных компонентов. то же действие (скачивание) вы можете наблюдать, когда просматриваете некоторую страницу и когда выбираете просмотр HTML-кода в своем браузере.

Crawler: как и паук скачивает страницы, он может раздеть страницу и найти все ссылки. это его задача – определять, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов.

Indexer: индексатор разбирает страницу на различные ее части и анализирует их. элементы типа заголовков страниц, заголовков, ссылок, текста, структурных элементов, элементов BOLD, ITALIC и других стилевых частей страницы вычленяются и анализируются.

Database: база данных – это хранилище всех данных, которые поисковая система скачивает и анализирует. это часто требует огромных ресурсов.

Search Engine Results Engine: о, самое сердце зверя. именно система выдачи результатов решает, какие страницы удовлетворяют запросу пользователя. это та часть поисковой системы, с который вы имеете дело, осуществляя поиск.

когда пользователь вводит ключевое слово и делает поиск, поисковая система отбирает результаты на основании постоянно меняющихся критериев. алгоритмом называется метод, по которому она принимает решение. профессиональные оптимизаторы (SEO) иногда употребляют термин algos - это и есть то, о чем мы говорим.

не смотря на то, что поисковые системы сильно изменились, большинство до сих пор отбирают результаты поиска на основании примерно следующих критериев:

• Title (заголовок): присутствует ли ключевое слово в заголовке?

• Domain/URL (домен/адрес): присутствует ли ключевое слово в имени домена или в адресе страницы?

• Style (стиль): жирный (STRONG или B), курсив (EM или I), заголовки HEAD: если место на странице, где ключевое слово использовано в жирных, курсивных или Hx (H1, H2,…) текстовых заголовках?

• Density (плотность): как часто ключевое слово употреблено на странице? количество ключевых слов относительно текста страницы называется плотностью ключевого слова.

• MetaInformation (мета данные): хотя многие отрицают, некорые поисковые системы до сих пор читают мета ключевые слова (meta keywords) и мета описания (meta description).

• Outbound Links (ссылки наружу): на кого есть ссылки на странице и встречается ли ключевое слово в тесте ссылки?

• Inbound Links (внешние ссылки): кто еще в интернет имеет ссылку на данный сайт? каков текст ссылки? это называется внестраничный критерий, потому что автор страницы не всегда может им управлять.

• Insite Links (ссылки внутри страницы): на какие еще страницы данного сайта содержит ссылки эта страница?

как видите, поисковой системе необходимо делать множество уточняющих запросов, используя скаченную страницу целиком.

это сокращенное описания функционирования поисковой системы.

автор : бретт табке.

перевод : dimok.ru

источник : http://www.searchengines.ru