uchenik
Новичок
Анализ pdf-файла
Открываю pdf-файл блокнотом. В тексте команды форматирования типа "<< /Type /Font /Subtype /TrueType /FirstChar 32 /LastChar 122 /Widths ... т.д." разбивают блоки необходимых мне данных.
Проблема в том, что команды форматирования документа отображаются в читаемом виде, а данные (на английском) - абракадаброй. Пример:
"N©„ич8ОLЙxю*щ«?О7Hдуўg3µЬаpVПз'ЫќЉ«ћЧы«‰вс|¬¤Ъ?%i‘ѓ
—#Я”}TСvrшmРЇѓNс›гЮзЫg:n;* зU`Tю J±цЦµGcдщш`W^ўLc:’цhч¶‡1|РiЏ6DїЗ
ЛЙФТmЖWµ‡OДѓ¦Aљµн!fґЬ`>O¦eox>ХЏC—;dУ©аDVѕ$Эp*°"ѓ¦ЯпЯбOeeKЖЕfrX3“ sы2·/ѓуi…6рҐcД
¦Њѓъc5�"Hb»УТЗ|}1Jn™јofsа–хаyn"
Вопрос такой - можно ли эту абракадабру преобразовать в текст, пригодный для парсинга регулярными выражениями?
Открываю pdf-файл блокнотом. В тексте команды форматирования типа "<< /Type /Font /Subtype /TrueType /FirstChar 32 /LastChar 122 /Widths ... т.д." разбивают блоки необходимых мне данных.
Проблема в том, что команды форматирования документа отображаются в читаемом виде, а данные (на английском) - абракадаброй. Пример:
"N©„ич8ОLЙxю*щ«?О7Hдуўg3µЬаpVПз'ЫќЉ«ћЧы«‰вс|¬¤Ъ?%i‘ѓ
—#Я”}TСvrшmРЇѓNс›гЮзЫg:n;* зU`Tю J±цЦµGcдщш`W^ўLc:’цhч¶‡1|РiЏ6DїЗ
ЛЙФТmЖWµ‡OДѓ¦Aљµн!fґЬ`>O¦eox>ХЏC—;dУ©аDVѕ$Эp*°"ѓ¦ЯпЯбOeeKЖЕfrX3“ sы2·/ѓуi…6рҐcД
¦Њѓъc5�"Hb»УТЗ|}1Jn™јofsа–хаyn"
Вопрос такой - можно ли эту абракадабру преобразовать в текст, пригодный для парсинга регулярными выражениями?
можно конечно парсить, но это сложно, и нужно смотреть спецификацию по формату.