Получение хорошего читаемого текста из pdf. проблема с спец символами.

ho.hol · 12 Окт 2012

Изначально надо было получить содержимое PDF файла.

получаю содержимое ПДФ следующим образом:
$fileContent = shell_exec('/usr/bin/pdftotext '.$filename.' -');

потом делаю декодирование:
$fileContent = mb_convert_encoding($fileContent, 'ISO-8859-1', 'utf-8'); // получаю читаемый текст в кодировке win1251. Почему так - не знаю, видимо все содержимое в пдф хранится в Latin1

$fileContent = mb_convert_encoding($fileContent, 'utf-8', 'windows-1251'); // перегоняю в UTF так как в итоге надо в таком формате.

Все класс за исключением того что некоторые символы после первой перекодировки превращаются в ?
Вот какие :
“, ”, ’

Соответственно и в дальнейшем они остаются вопросами.
как побороть это? Кто подскажет. заранее спасибо.

ho.hol · 12 Окт 2012

в принципе написал небольшую функцию которая решает мои проблемы.
может кому то надо

она работает под UTF-8

function myEncode($string) {
$pattern = array('“', '”', '’', '—');
$replacement = array('«', '»', '\'', '-');
for ($i=0; $i<sizeof($pattern); $i++) {
$string = mb_ereg_replace($pattern[$i], $replacement[$i], $string);
}
return $string;
}

radioheaded · 12 Окт 2012

$fileContent = mb_convert_encoding($fileContent, 'ISO-8859-1', 'utf-8'); // получаю читаемый текст в кодировке win1251. Почему так - не знаю, видимо все содержимое в пдф хранится в Latin1

После этой строки я впал в ступор.

ho.hol · 15 Окт 2012

radioheaded написал(а):
После этой строки я впал в ступор.

почему? в моем случае когда я делаю такую операцию то выходной текст именно в читательном виде.

WMix · 15 Окт 2012

я точно не знаю, но есть предположение, что кодировка в которой написан pdf тоже лежит в pdf, видать тебе еще просто не попадался отличный от 'ISO-8859-1', и ты строго вписал в скрипт этот параметер...

прочитав коментарий "Почему так - не знаю, видимо все содержимое в пдф хранится в Latin1", я выпал в осадок...
откуда такие слова "видимо"... а прочитать?

Получение хорошего читаемого текста из pdf. проблема с спец символами.

ho.hol

Новичок

ho.hol

Новичок

radioheaded

PHP нуб

ho.hol

Новичок

WMix

герр M:)ller