PDF -> text - есть ли консольная утилита? (linux, cyr)

fog

Рыцарь Джедай
PDF -> text - есть ли консольная утилита? (linux, cyr)

Привет!

Хочу прикрутить к mnoGoSearch поиск по PDF. Та утилита, что указана на сайте многосёрча (http://www.mnogosearch.org/winhelp/ch16s03.html), похоже, не работает с кириллицей, кроме того она для win32.

Встречал ли кто-нибудь консольную утилиту, для linux, которая может из PDF выдернуть текст? Особо красивый документ на выходе не нужен, текст нужен только для индексации поисковиком...

Ну, или, что ещё можно сделать в моей ситуации? :)
 

fog

Рыцарь Джедай
Да, спасибо! Это то, что нужно.
Только, вот, что-то не получается кириллицу подключить, в конфиг нужные строки прописал, сам конфиг при запуске указал... :/
 

Wicked

Новичок
т.е. ты сходил по той ссылке также и в раздел Language Support Packages, скачал файл для работы с кириллицей и сделал все, что написано в README в том архиве?
 

fog

Рыцарь Джедай
да, скачал файлы для кириллицы, взял из файла add-to-xpdfrc строки, добавил их в xpdfrc, положил в папку вместе с pdftotext. Просто запускал, запускал с параметром -cfg...
 

Wicked

Новичок
тогда хз :)

есть подозрение, что в пдф может использоваться какая-нибудь еще кодировка кроме кои8. Отсюда вопрос: русский текст вообще пристутсвует в файле на выходе, но испорчен, или его там вообще нету?
 

fog

Рыцарь Джедай
Запятые, точки, много пробелов, крокозяблики псевдографики иногда встречаются....
 

Wicked

Новичок
значит скорее всего он не подхватил конфигурацию. либо файл вообще не на русском :)
 

fog

Рыцарь Джедай
да вроде на русском, похоже на то что не подхватывает... :|
 
Сверху