Получение хорошего читаемого текста из pdf. проблема с спец символами.

ho.hol

Новичок
Изначально надо было получить содержимое PDF файла.

получаю содержимое ПДФ следующим образом:
$fileContent = shell_exec('/usr/bin/pdftotext '.$filename.' -');

потом делаю декодирование:
$fileContent = mb_convert_encoding($fileContent, 'ISO-8859-1', 'utf-8'); // получаю читаемый текст в кодировке win1251. Почему так - не знаю, видимо все содержимое в пдф хранится в Latin1

$fileContent = mb_convert_encoding($fileContent, 'utf-8', 'windows-1251'); // перегоняю в UTF так как в итоге надо в таком формате.

Все класс за исключением того что некоторые символы после первой перекодировки превращаются в ?
Вот какие :
“, ”, ’

Соответственно и в дальнейшем они остаются вопросами.
как побороть это? Кто подскажет. заранее спасибо.
 

ho.hol

Новичок
в принципе написал небольшую функцию которая решает мои проблемы.
может кому то надо

она работает под UTF-8

function myEncode($string) {
$pattern = array('“', '”', '’', '—');
$replacement = array('«', '»', '\'', '-');
for ($i=0; $i<sizeof($pattern); $i++) {
$string = mb_ereg_replace($pattern[$i], $replacement[$i], $string);
}
return $string;
}
 

radioheaded

PHP нуб
$fileContent = mb_convert_encoding($fileContent, 'ISO-8859-1', 'utf-8'); // получаю читаемый текст в кодировке win1251. Почему так - не знаю, видимо все содержимое в пдф хранится в Latin1
После этой строки я впал в ступор.
 

WMix

герр M:)ller
Партнер клуба
я точно не знаю, но есть предположение, что кодировка в которой написан pdf тоже лежит в pdf, видать тебе еще просто не попадался отличный от 'ISO-8859-1', и ты строго вписал в скрипт этот параметер...

прочитав коментарий "Почему так - не знаю, видимо все содержимое в пдф хранится в Latin1", я выпал в осадок...
откуда такие слова "видимо"... а прочитать?
 
Сверху