Спайдер, поисковые сервера и идея для класификации контента

Kathrin

Новичок
Добрый день всем.

Поставили интересную задачку на дипломный проект.
Пытаюсь понять подобрать нужные инструменты.
Вчастности поисковые сервера.

Есть университетская библиотека онлайн(сайт).
Там куча ссылок на статьи, пдф, документы, книги и еще что то.
Т.е. типы источников данных для индекса разные.
Есть и другие базы знаний от универов.

Нужно сделать проект, где будут юзеры с разными
ролями. Например научный работник, студент.
Если научный работник вводит слово алгоритм, мы
должны ему искать в различных научных работах,
книгах и т.д. Если студент то ищем в методичках,
учебниках и т.д.

Сейчас стоит две задачи.
Нужен спайдер, который будет пробегаться по ресерсам сканировать html, pdf и еще что то и делать индекс. Пока нашла http://www.openwebspider.org/ . Далее поиск.
Вторая задача, тут думаю навряд кто поможет номожет идеи подкинут.
Надо как то ресурсы, которые заиндексирует спайдер, как то отнести к научным
работам и т.д. Т.е. какие то коэфициенты/веса проставить, или категории или тэги на основе
чего то.
Может кто сталкивался с подобной задачей и подскажет куда копать.

Хочеться найти связку поисковой сервер + спайдер который можт для него сделать индекс.
Смотрю в сторону sphinx, elasticsearch, lucene/solr к ним есть Nutch.
Кто что посоветует?
И как то решить вторую задачку.

Спасибо!
 

Breeze

goshogun
Команда форума
Партнер клуба
Сходу можно предложить только автоматический классификатор на основе анализа названий работ и их типов с возможностью ручной корректировки.
Например, слова "учебник" и "учебное пособие" больше для студентов, а "методическое пособие" может быть для обеих категорий, надо смотреть, есть ли там "преподаватель" или "учитель".
Фактически надо исследовать виды документов, варианты наименований, возможно ГОСТы, составить ряд признаков и от него отталкиваться, дав возможность корректировать результат. Определиться к какой категории относить тот документ, тип которого распознать не удалось.

Либо ты что-то не договариваешь.

В общем это первая задачка и самая важная.

На чем делать уже вторая и третья и не настолько критичная. Подойдут все перечисленные, с учетом того, что elasticsearch это тоже lucene.
 

Breeze

goshogun
Команда форума
Партнер клуба
и самое главное, как проект называется?
 

Kathrin

Новичок
Breeze, спасибо большое! Название не предумала еще, это пока дипломная работа. С руководителем активно обсуждаем что да как.
 
Сверху