Также рекомендуем посетить:
Поисковые системыКак работает поисковая машинаРоссия - СамараПоисковая машина — это программа, которая составляет и хранит предметный указатель Интернета, а еще и находит в нем заданные ключевые слова. Для этого программа составляет так называемый индекс.
Индекс — это основа данных поисковой машины, так именуемый инвертирований индекс. Обычно напоминает индекс терминов в учебниках и научных изданиях. Содержит словарь слов, встречающихся на веб страницах, с приписанными к ним перечнями адресов интернет-страниц, содержащих эти слова. служит для поиска страниц с вхождениями данных ключевых слов. Индекс пополняется поисковым роботом во время периодических обходов Интернета.
4 шага составления индекса и поиска по нему:
– Сбор адресов страниц в Интернете
– Выкачивание страниц
– Составление индекса, или индексирование
– Поиск
Сбор адресов страниц в Интернете
Чтобы собрать индекс по страницам, сначала необходимо решить, какие страницы нам необходимы. Таким образом, необходимо сначала собрать перечень страниц — набор адресов тех страниц, по которым станет собираться индекс.
Поскольку сайты и их страницы непоследовательно разбросаны в Интернете, поисковой машине необходимо с чего-то начать. Обычно создатели поисковой машины загружают в нее некий исходный перечень адресов страниц сайтов( взяв его, например, из какого-либо каталога). Затем поисковая машина( ее составная часть — так называемый поисковый бот) собирает все гипертекстовые ссылки с каждой из данных страниц на остальные страницы и прибавляет все найденные в ссылках адреса к собственному начальному набору адресов.
Таким образом, начальный набор адресов страниц скоро возрастает за счет ссылок на остальные сайты и страницы и постепенно становится чрезвычайно огромным. Сейчас поисковики обходят и индексируют млрд веб-страниц.
Нужно обратить интерес на тот очевидный факт, что малоизвестные страницы, на какие никто не ссылается, имеют чрезвычайно не достаточно шансов автоматически угодить в индекс поисковой машины! Дело в том, что вручную разработчики поисковика не смогут добавить их в исходный перечень адресов( в следствии того, что они не достаточно известны), а по ссылкам поисковому боту до них добраться тяжело — в следствии малого количества данных ссылок. Возможно, поисковый бот и доберется до них когда-либо, но далеко не в первую очередь.
А страничка, на которую нет вообщем ни одной ссылки, » собственным ходом » не попадет в индекс поисковика никогда, если не предпринимать особых усилий.
Конечно, обладатель интернет-сайта может сам прибавить новый адрес страницы в индекс поисковика вручную, применяя средства регистрации новых веб-страниц, какие есть во всех поисковых машинах.
Выкачивание страниц
Чтобы поработать с текстом страницы и составить из него индекс, поисковик должен заполучить этот контент.
Для этого поисковик обязан выкачать этот контент, то есть запросить у интернет-сайта заданную страничку. Выкачивает страницы особый модуль поисковой машины, именуемый поисковым » пауком «( по-английски — crawler), или поисковым роботом. Поисковый робот обходит данный на прошлом шаге перечень страниц, выкачивает огромный объем сырого текстового материала, хранит его на дисках собственных компьютеров и передает на индексирование индексному боту.
Составление индекса, или индексирование
Чтобы собрать индекс, индексный бот поисковой машинки обязан выбрать все слова из всех выкачанных текстов и расположить их в алфавитном порядке совместно с номерами страниц и разнообразной служебной информацией о каждой странице.
Для этого индексный бот перебирает все выкачанные страницы, нумерует их( а как же, ведь необходимо как-то пометить страницы, чтоб позже находить их), устраняет из текста страниц любой ненужный, нетекстовый » мусор «( к примеру, разметку языка html), потом извлекает из текста слова и размещает их в индекс. При этом слова снабжаются информацией о страницах, с которых они были взяты.
Поиск
Все описанные предыдущие шаги незаметны для пользователя поисковой машины, они выполняются в поисковой машине. А вот сам поиск — это и есть то, что наблюдает юзер. Пользователь вводит в поисковую строку собственный запрос( слово или словосочетание), и поисковая машина — о чудо! — выдает перечень ссылок на страницы в Интернете.
Как это работает? Когда пользователь вводит какое-нибудь слово в строку запроса поисковика, поисковая машина обращается к индексу, находит запись о данном слове, извлекает все номера страниц, относящиеся к данному слову, и показывает пользователю итоги поиска, то есть перечень страниц.
В перечне результатов традиционно отражается заголовок страницы( так называемый титул), дата создания страницы, ее адрес, цитата из текста страницы с подсвеченным искомым одним словом. Если же в запросе было некоторое количество слов, то поисковая машина ассоциирует перечни ссылок на страницы для каждого слова и выбирает лишь те страницы, номера которых повторяются, то есть встречаются в каждом перечне страниц для каждого слова. Таким образом, выбираются лишь те страницы, на которых сразу встречаются все слова запроса.
Конечно, тут изложена самая суть механизма поиска по индексу, его главный принцип, а в действительности создатели поисковиков используют очень много разнообразных ухищрений.
Поисковик тем лучше, чем наиболее » правильные » страницы он показывает пользователю в ответ на запрос. «Правильные » страницы именуются релевантными( то есть относящимися к делу, уместными).
|