ho.hol
Новичок
Изначально надо было получить содержимое PDF файла.
получаю содержимое ПДФ следующим образом:
$fileContent = shell_exec('/usr/bin/pdftotext '.$filename.' -');
потом делаю декодирование:
$fileContent = mb_convert_encoding($fileContent, 'ISO-8859-1', 'utf-8'); // получаю читаемый текст в кодировке win1251. Почему так - не знаю, видимо все содержимое в пдф хранится в Latin1
$fileContent = mb_convert_encoding($fileContent, 'utf-8', 'windows-1251'); // перегоняю в UTF так как в итоге надо в таком формате.
Все класс за исключением того что некоторые символы после первой перекодировки превращаются в ?
Вот какие :
“, ”, ’
Соответственно и в дальнейшем они остаются вопросами.
как побороть это? Кто подскажет. заранее спасибо.
получаю содержимое ПДФ следующим образом:
$fileContent = shell_exec('/usr/bin/pdftotext '.$filename.' -');
потом делаю декодирование:
$fileContent = mb_convert_encoding($fileContent, 'ISO-8859-1', 'utf-8'); // получаю читаемый текст в кодировке win1251. Почему так - не знаю, видимо все содержимое в пдф хранится в Latin1
$fileContent = mb_convert_encoding($fileContent, 'utf-8', 'windows-1251'); // перегоняю в UTF так как в итоге надо в таком формате.
Все класс за исключением того что некоторые символы после первой перекодировки превращаются в ?
Вот какие :
“, ”, ’
Соответственно и в дальнейшем они остаются вопросами.
как побороть это? Кто подскажет. заранее спасибо.