Готовый полнотекстовый поиск для поиска по 1000 внешних сайтов.

Y.Vladimir

Новичок
Готовый полнотекстовый поиск для поиска по 1000 внешних сайтов.

Задача: Индексация массива URL (около 1000) сайтов,
создание по ним полнотекстового поиска прежде всего на англ. языке.

Интересует готовое решение, которое можно в последующем доработать, либо использовать как основу.

Пробовал:

1. Mnogosearch. Интересный поиск, достаточно быстрый но имеет один недостаток - плохо ищет фразы на сайте.
Например, индексируем всего один сайт, берем любую фразу на любой проиндексированной странице сайта (3 - 5 слов), вставляем в поиск - результат отсутствует (найдено 0).
Поиск по отдельным словам проходит более-менее нормально.

2. Sphinx
Очень быстрый поиск. Активно развивается и поддерживается.
Из недостатков - отсутствие паука. Нельзя индексировать сайты. Нужно писать отдельное приложение ПАУК, который будет ходить по внешним сайтам, страницам (ссылкам) собирать информацию и отдавать Sphinx-у.

Мне нужен совет, в каком направлении вести работу.
Направить силы на доработку mnogosearch либо сконцентрироваться на ПАУКЕ для Sphinx, или есть третье решение, которое позволит реализовать часть необходимых возможностей.

Спасибо.
 

Adelf

Administrator
Команда форума
Sphinx.
Написать паука к нему.. вроде несложно. тем более задача упрощенная - массив урлов и сайтов не так много.
Загоняем в базу(ну или куданибудь) урлы, а тексты в индекс сфинкса.. и вуаля.
 

Y.Vladimir

Новичок
Дело в том, что есть 1000 URL сайтов.

ПАУК должен будет проиндексировать страницы по каждому URL (c учетом глубины вложенности не более 3-х).

Мне кажется, что уже есть некий ПАУК для свинкса.
Так как этот поиск очень перспективный, и не все его используют для поиска исключительно по одному сайту.
 

pilot911

Новичок
паук уже есть в многосерче - он забивает текст со страницы в базу, а сфинкс уже может искать по этой базе

паук многосерча хорошо работает
 

tf

крылья рулят
Готовый полнотекстовый поиск для поиска по 1000 внешних сайтов.
в ищю готовое решение, И НЕНАДО тут путать людей тем что сами собрались его писать
 

Y.Vladimir

Новичок
Автор оригинала: tf
в ищю готовое решение, И НЕНАДО тут путать людей тем что сами собрались его писать
Готовое решение.

1. поиск
2. паук

Рассматриваю возможность доработки решений для хорошей Интеграции друг с другом.
 

Mr_Max

Первый класс. Зимние каникулы ^_^
Команда форума
переезжаем
 
Сверху