pinguin
Новичок
Lucene Engine and non-english PDF and Ms Office documents
Разрабатываю компонент (модуль) индексации файлов формата PDF and MS OFFICE. Так как количество файлов довольно большое (не менее 50 000), то как решение был взят за основу механизм индексации от Apache Group Lucene (www.lucene.apache.org). Индексировать нужно как сами документы, так и их содержание (для реализации поиска). Вопрос следующий: текст документов (даже и названия) на английском и иврите. С английским проблем нет, а вот с последним множество. Умеет ли Lucene индексировать документы на иврите в частности? Если не умеет, то можно ли несколько советов как реализовать данную фичу.
зы. если умеет индексировать, то желательно кратко описать механизм.
зызы. еще, если возможно, хотелось бы посоветоваться насчет организации поиска "на иврите". Тоже механизм в двух словах.
MySQL Version: 4.1.19-standard
PHP Version: 5.1.4
Web Server: Apache/2.0.54 (Linux/SUSE)
WebServer to PHP interface: apache2handler
если важны эти данные
Разрабатываю компонент (модуль) индексации файлов формата PDF and MS OFFICE. Так как количество файлов довольно большое (не менее 50 000), то как решение был взят за основу механизм индексации от Apache Group Lucene (www.lucene.apache.org). Индексировать нужно как сами документы, так и их содержание (для реализации поиска). Вопрос следующий: текст документов (даже и названия) на английском и иврите. С английским проблем нет, а вот с последним множество. Умеет ли Lucene индексировать документы на иврите в частности? Если не умеет, то можно ли несколько советов как реализовать данную фичу.
зы. если умеет индексировать, то желательно кратко описать механизм.
зызы. еще, если возможно, хотелось бы посоветоваться насчет организации поиска "на иврите". Тоже механизм в двух словах.
MySQL Version: 4.1.19-standard
PHP Version: 5.1.4
Web Server: Apache/2.0.54 (Linux/SUSE)
WebServer to PHP interface: apache2handler
если важны эти данные