Анализ pdf-файла

uchenik

Новичок
Анализ pdf-файла

Открываю pdf-файл блокнотом. В тексте команды форматирования типа "<< /Type /Font /Subtype /TrueType /FirstChar 32 /LastChar 122 /Widths ... т.д." разбивают блоки необходимых мне данных.

Проблема в том, что команды форматирования документа отображаются в читаемом виде, а данные (на английском) - абракадаброй. Пример:

"N©„ич8ОLЙxю*щ«?О7Hдуўg3µЬаpVПз'ЫќЉ«ћЧы«‰вс|¬¤Ъ?%i‘ѓ

—#Я”}TСvrшmРЇѓNс›гЮзЫg:n ;* зU`Tю J±цЦµGcдщш`W^ўLc:’цhч¶‡1|РiЏ6DїЗ

ЛЙФТmЖWµ‡OДѓ¦Aљµн!fґЬ`>O¦eox>ХЏC—;dУ©аDVѕ$Эp*°"ѓ¦ЯпЯбOeeKЖЕ frX3“ sы2·/ѓуi…6рҐcД

¦Њѓъc5&#65533;"Hb»УТЗ|}1Jn ™јofsа–хаyn"

Вопрос такой - можно ли эту абракадабру преобразовать в текст, пригодный для парсинга регулярными выражениями?
 

Crazy

Developer
Парсить postscript регулярными выражениями -- задача, достойная гения...
 

white phoenix

Новичок
в этом смысле, всё файлы текстовые. обьект 3dmax тоже текстовый :) можно конечно парсить, но это сложно, и нужно смотреть спецификацию по формату.
 

uchenik

Новичок
Меня интересует - можно ли абракадабру перевести в нормальный английский? С регулярками я разберусь.

Вероятно меня неправильно поняли - я не собираюсь писать универсальные парсеры для формата postscript.

Имеется конкретный pdf, в котором есть заранее неизвестный список фамилий. Моя задача ограничивается получением этого списка.
 

Crazy

Developer
Идея очевидна: перевести ghostscript'ом в формат, с которым умеешь работать.
 

SiMM

Новичок
> Меня интересует - можно ли абракадабру перевести в нормальный английский?
Можно. Acrobat Reader успешно это демонстрирует. Если вариант Crazy не подойдёт, то
> нужно смотреть спецификацию по формату
Но как уже было сказано выше, это
> задача, достойная гения...
 

440hz

php.ru
Автор оригинала: uchenik
Меня интересует - можно ли абракадабру перевести в нормальный английский? С регулярками я разберусь.
.
под *nix можно поюзать /usr/ports/textproc/pdftohtml
 

white phoenix

Новичок
под win, вероятно, можно использовать какой-нибудь COM-обьект для работы с акробатом.
 
Сверху