Kathrin
Новичок
Добрый день всем.
Поставили интересную задачку на дипломный проект.
Пытаюсь понять подобрать нужные инструменты.
Вчастности поисковые сервера.
Есть университетская библиотека онлайн(сайт).
Там куча ссылок на статьи, пдф, документы, книги и еще что то.
Т.е. типы источников данных для индекса разные.
Есть и другие базы знаний от универов.
Нужно сделать проект, где будут юзеры с разными
ролями. Например научный работник, студент.
Если научный работник вводит слово алгоритм, мы
должны ему искать в различных научных работах,
книгах и т.д. Если студент то ищем в методичках,
учебниках и т.д.
Сейчас стоит две задачи.
Нужен спайдер, который будет пробегаться по ресерсам сканировать html, pdf и еще что то и делать индекс. Пока нашла http://www.openwebspider.org/ . Далее поиск.
Вторая задача, тут думаю навряд кто поможет номожет идеи подкинут.
Надо как то ресурсы, которые заиндексирует спайдер, как то отнести к научным
работам и т.д. Т.е. какие то коэфициенты/веса проставить, или категории или тэги на основе
чего то.
Может кто сталкивался с подобной задачей и подскажет куда копать.
Хочеться найти связку поисковой сервер + спайдер который можт для него сделать индекс.
Смотрю в сторону sphinx, elasticsearch, lucene/solr к ним есть Nutch.
Кто что посоветует?
И как то решить вторую задачку.
Спасибо!
Поставили интересную задачку на дипломный проект.
Пытаюсь понять подобрать нужные инструменты.
Вчастности поисковые сервера.
Есть университетская библиотека онлайн(сайт).
Там куча ссылок на статьи, пдф, документы, книги и еще что то.
Т.е. типы источников данных для индекса разные.
Есть и другие базы знаний от универов.
Нужно сделать проект, где будут юзеры с разными
ролями. Например научный работник, студент.
Если научный работник вводит слово алгоритм, мы
должны ему искать в различных научных работах,
книгах и т.д. Если студент то ищем в методичках,
учебниках и т.д.
Сейчас стоит две задачи.
Нужен спайдер, который будет пробегаться по ресерсам сканировать html, pdf и еще что то и делать индекс. Пока нашла http://www.openwebspider.org/ . Далее поиск.
Вторая задача, тут думаю навряд кто поможет номожет идеи подкинут.
Надо как то ресурсы, которые заиндексирует спайдер, как то отнести к научным
работам и т.д. Т.е. какие то коэфициенты/веса проставить, или категории или тэги на основе
чего то.
Может кто сталкивался с подобной задачей и подскажет куда копать.
Хочеться найти связку поисковой сервер + спайдер который можт для него сделать индекс.
Смотрю в сторону sphinx, elasticsearch, lucene/solr к ним есть Nutch.
Кто что посоветует?
И как то решить вторую задачку.
Спасибо!