Alex_Ar
Новичок
Принципы индексации страниц и поиска по сайту
Всем привет. Вопрос - какая логика, последовательность действий при написании поисковика.
Индексацию я делаю так:
функция открывает страницу по http через fopen, которую принимает параметром, затем ищет все ссылки на этой странице и засовывает их в массив. Удаляет все теги, и в таблицу в базе делает запись - ссылка по которой открывалась страница, текст без тегов. После в массив записывает ссылку которая уже обработана и дальше открывает страницу по ссылке которую берет из первого массива. Таким образ получается рекурсия. Обработка ссылок не повторяются, потому что они записаны в массив, и перед рекурсией проверяется была ли обработана ссылка...
Результат - таблица в базе со всеми сссылками и текстами страниц без тегов им в соответствие.
НО правильно ли это?
А вот по самой логике поиска я вообще запутался, почитал старые сообщения, и теперь каша в голове, какие - то промежуточные таблицы и т.д.
Помогите, плиз, подскажите правильно ли я сделал индексацию или это бред, и вообще что делатьдальше
Всем привет. Вопрос - какая логика, последовательность действий при написании поисковика.
Индексацию я делаю так:
функция открывает страницу по http через fopen, которую принимает параметром, затем ищет все ссылки на этой странице и засовывает их в массив. Удаляет все теги, и в таблицу в базе делает запись - ссылка по которой открывалась страница, текст без тегов. После в массив записывает ссылку которая уже обработана и дальше открывает страницу по ссылке которую берет из первого массива. Таким образ получается рекурсия. Обработка ссылок не повторяются, потому что они записаны в массив, и перед рекурсией проверяется была ли обработана ссылка...
Результат - таблица в базе со всеми сссылками и текстами страниц без тегов им в соответствие.
НО правильно ли это?
А вот по самой логике поиска я вообще запутался, почитал старые сообщения, и теперь каша в голове, какие - то промежуточные таблицы и т.д.
Помогите, плиз, подскажите правильно ли я сделал индексацию или это бред, и вообще что делатьдальше