Создание поиска для сайта е-книг

Irvin

Новичок
Создание поиска для сайта е-книг

Вот собственно попросили сделать что-то подобное...
Готовых скриптов я ненашел, все готовые ищут только хтмл и заглядывают ему внутрь (если у кого есть буду очень благодарен если поделитесь), а книги бывают разных форматов...Вот решил делать такую вещ сам. Есои я правильно понял то надо для начала зделать скрип индыксации, чтоб все имена записывались в один фаил, а потом уже поиск нужного имени в этом файле, правильно? А если книг будет много, около 10 Гб такой скрипт будет работать? Как вообще его сделать?
Буду рад любому совету...спасибо...
 

_RVK_

Новичок
Это целая теория. На одной из конференций обсуждались вопросы поиска. На форуме есть обсуждения на этут тему. В качестве примера могу посоветовать движок phpdig.
 

_RVK_

Новичок
Вполне. Но я не в курсе в какм состоянии сейчас этот прект. Я пользовался им года полтора назад. Думаю сейчас есть и альтернативы.
 

Irvin

Новичок
Огромное спасибо...

-~{}~ 05.11.05 17:45:

А есть еще какой-нибудь движок, которому не надо использование базы данных?
 

phprus

Moderator
Команда форума

Irvin

Новичок
Обратил внимание на dataparksearch ... Но вот извеняюсь за ламерский вопрос - как открыть Unix архив tar.gz в винде??
 

phprus

Moderator
Команда форума
Irvin
RARом. А у тебя что сервер на винде стоять будет? Дело в том что этот скрипт написан на С и поставляется в исходниках и его надо компилировать.
 

Irvin

Новичок
Пока е знаю как там будет, но для начала хотелось-бы на своей тачке поставит, а у меня виндовз...
да-а, то что он на С это совсем не гуд :( А как-то проще можно? php такого не умеет?
 

_RVK_

Новичок
phprus
Почему? Тестировал?

-~{}~ 05.11.05 19:11:

Пора бы уже тему перенести в Ищу готовое, потому как автор видимо ничего сам делать не собирается....
 

Irvin

Новичок
автор видимо ничего сам делать не собирается....
Собирается если нечего их предло женого не подойдет :)
Так кстате если написать такой скрипт как я описывал он сможет работать с таким обемом файлов?
 

_RVK_

Новичок
Если phpdig не может то и твой несможет. Я только не понял откуда такой вывод.
 

phprus

Moderator
Команда форума
_RVK_
У меня Он начинал сильно тормозить уже при 70 - 100 Мб проиндексированного текста. Под тормозами я понимаю во первых медленное индексирование, а во вторых медленный поиск, особенно в случае поиска фразы.

Если phpdig не может то и твой несможет
При желании можно написать скрипт который будет работать гораздо быстрее чем phpdig, но при таких объемах данных скрипт поиска на php все равно будет тормозить. А чтобы получить приемлемую скорость поиска для 10 Гигабайт документов нужно использовать поисковик написанный на С.
 

_RVK_

Новичок
phprus
Сеньк, буду знать. Правда речь шла о 10Г чистой инфы. Индекс будет меньше. Хотя тоже не маленький.
 

Silent

Новичок
Для начала неплохо бы определиться с постановкой задачи. Если нужен поиск только по названиям, то нет смысла говорить об объеме колекции. А если нужен полнотекстовый поиск, то наверное есть смысл поговорить о формате файлов. 10 гиг для архивированного текста это очень много. Может там всякие PDF или DJVU водятся. С одной стороны это хорошо, потому что чистого текста будет гораздо меньше. С другой стороны нужно озаботиться поиском хороших парсеров.

P.S. Кстати, для DJVU нет удобного парсера?
 

SiMM

Новичок
> DJVU обычные картинки, парсить их не получится
DjVu может иметь "скрытый текст". Правда, это более трудозатратно и чаще всего этот текст отсутствует.
http://rus-linux.net/zen/djvu_abstract/djvu_abstract.html
Передний слой может быть подвергнут OCR, а результат внедрён назад в файл DjVu как доступный для поиска уровень "скрытого текста". ... Гиперссылки, аннотации, эскизы страниц и другие метаданные тоже могут быть внедрены в документы DjVu.
http://www.cqham.ru/djvu_ocr.htm
 

phprus

Moderator
Команда форума
_RVK_
На этой неделе постараюсь найти время для тестирования последней версии phpDig. Информация которую я привел была получена при тестировании версии 1.8.6 или 1.8.7 сейчас уже точно не помню.

А на счет индекса: В phpdig он будет не на много меньше чем размер проиндексированны документов.
 
Сверху