Y.Vladimir
Новичок
Готовый полнотекстовый поиск для поиска по 1000 внешних сайтов.
Задача: Индексация массива URL (около 1000) сайтов,
создание по ним полнотекстового поиска прежде всего на англ. языке.
Интересует готовое решение, которое можно в последующем доработать, либо использовать как основу.
Пробовал:
1. Mnogosearch. Интересный поиск, достаточно быстрый но имеет один недостаток - плохо ищет фразы на сайте.
Например, индексируем всего один сайт, берем любую фразу на любой проиндексированной странице сайта (3 - 5 слов), вставляем в поиск - результат отсутствует (найдено 0).
Поиск по отдельным словам проходит более-менее нормально.
2. Sphinx
Очень быстрый поиск. Активно развивается и поддерживается.
Из недостатков - отсутствие паука. Нельзя индексировать сайты. Нужно писать отдельное приложение ПАУК, который будет ходить по внешним сайтам, страницам (ссылкам) собирать информацию и отдавать Sphinx-у.
Мне нужен совет, в каком направлении вести работу.
Направить силы на доработку mnogosearch либо сконцентрироваться на ПАУКЕ для Sphinx, или есть третье решение, которое позволит реализовать часть необходимых возможностей.
Спасибо.
Задача: Индексация массива URL (около 1000) сайтов,
создание по ним полнотекстового поиска прежде всего на англ. языке.
Интересует готовое решение, которое можно в последующем доработать, либо использовать как основу.
Пробовал:
1. Mnogosearch. Интересный поиск, достаточно быстрый но имеет один недостаток - плохо ищет фразы на сайте.
Например, индексируем всего один сайт, берем любую фразу на любой проиндексированной странице сайта (3 - 5 слов), вставляем в поиск - результат отсутствует (найдено 0).
Поиск по отдельным словам проходит более-менее нормально.
2. Sphinx
Очень быстрый поиск. Активно развивается и поддерживается.
Из недостатков - отсутствие паука. Нельзя индексировать сайты. Нужно писать отдельное приложение ПАУК, который будет ходить по внешним сайтам, страницам (ссылкам) собирать информацию и отдавать Sphinx-у.
Мне нужен совет, в каком направлении вести работу.
Направить силы на доработку mnogosearch либо сконцентрироваться на ПАУКЕ для Sphinx, или есть третье решение, которое позволит реализовать часть необходимых возможностей.
Спасибо.