addurlПаук (Spider) Программа, похожая на браузер, которая скачивает страницы сайта для дальнейшей проверки.

Паук-путешественник (Crawler) Программа, которая пробегает по ссылкам на странице.

Индексатор (Indexer) Эта программа тщательно сканирует скачанные пауком страницы.

База данных (Database) Место, где хранятся уже обработанные страницы.

Система выдачи результатов (Search engine results engine) Вынимает результаты из базы данных и решает что показывать, а что не показывать пользователям. С этой частью Вы вполне знакомы, именно ей Вы и пользуетесь набирая что то в поисковиках - например набрав фразу "Силовые кабели в ПВХ изоляции" вы попадёте на сайт http://www.cabelpro.ru/.

Веб-сервер (Web server) Проводник между пользователем поисковой системы и самой поисковой системой.

Ну вот, если Вам это показалось вполне понятным, то можно идти дальше. Если Вы не поймете из чего состоят поисковики, то Вы не будете в дальнейшем понимать принцип их работы, это всего шесть простых компонентов, которые нужно знать.

Давайте закрепим вышеизложенное

Пауку приходит приказ о том, что нужно скачать страницу для ее обработки, который он немедленно исполняет. После скачивания страницы в дело подключается путешественник, который тщательно осматривает все вокруг, он блуждает по странице до тех пор, пока не исследует всё. После чего путешественник докладывает об исследовании и если он находит какие то новые ссылки, вся работа начинается сначала. После того, как находится новый контент, путешественник снова идет в дело, это бесконечный процесс, т.к. интернет на месте не стоит, что то появляется, что то удаляется.

Продолжение >>