PDF в ZIP средствами PHP

ПашаV

Новичок
Подскажите, может кто знает, мне нужно распарсить PDF файл таким образом чтобы на выходе получился HTML файл (чтобы форматирование и всё было внешне практически как в PDF), т.е. с сохранением разметки, шрифтов, цветов, таблицы, изображения теги.. + все изображения тоже выкачать из PDF.

Например на входе имеем: article.pdf
На выходе zip-архив, с содержимимым:

article.zip
./index.html
./images/
./images/image1.jpg
./images/image2.jpg
..
и т.д. если картинок много.

Т.е. распаковав такой архив, и открыв файл index.html я бы внешне увидел бы тот же самый контент что и в PDF файле и картинки чтобы все отображались.

Реально ли такое сделать? и если вы знаете подобные реализации или решения, буду признателен.
Либо подскажите как такое сделать самому, с чего начать, итерации и на ваш взгляд какой самый оптимальный способ решения данной задачи?

Заранее спасибо!
 

Absinthe

жожо
Реально и просто это сделать.
Превращаешь PDF в набор картинок утилитой, и делаешь простейший html с кучей <img src="page***.jpg"><br>

fixxxer он разве говорил, что ему надо разбивать страницы на текст и графику?
 

С.

Продвинутый новичок
Absinthe, к дурацким шуткам обязательно полагается смайлик. Не все же понимают такой юмор.
 

ПашаV

Новичок
Реально и просто это сделать.
Превращаешь PDF в набор картинок утилитой, и делаешь простейший html с кучей <img src="page***.jpg"><br>

fixxxer он разве говорил, что ему надо разбивать страницы на текст и графику?
это задача является под задачей к генерации из PDF книги в формат ePub.
КНижки могут быть в исходнике в разных форматах, и чтобы не писать различные конвертеры из разных форматов в epUb, было решено все исходники (doc, docx, txt, xml, docbook, rtf и т.д.) трансформировать в PDF, сейчас средствами PHP мы это делать умеем.

Теперь осталось PDF получившийся распарсить на HTML и Изрображения - это второй этап.

Третим этапом будет написание класса который из получившегося архива будет делать оглавление, обложку, и генерировать ePub - это тоже уже есть.
 

С.

Продвинутый новичок
ПашаV, если это архив, который надо распаковывать, то не лучше ли оставить в PDF? Одним файлом, открывается без проблем.
Суть задачи-то в чем?
 

ПашаV

Новичок
Проблема в том что ни один из нынесуществующих конвертеров в ePub (даже в онлайн версиях и скриптах на java, python и другие) не работают.
Т.е. да они конвертят в epub - но с ошибками и валидацию такой ePub не проходит + теряется верстка и изображения.
 

ПашаV

Новичок
ПашаV, если это архив, который надо распаковывать, то не лучше ли оставить в PDF? Одним файлом, открывается без проблем.
Суть задачи-то в чем?
суть задачи из PDF сделать ePub.

epub - это XHTML Strict + набор медиафайлов. оглавления и стилей заархивированное в zip + mimetype
 

ПашаV

Новичок
А зачем выбрали формат, не предполагающий обратного процесса?
90% всех книг в интернете присутствует в PDF формате, и лишь малая часть в DOC|DOCx|RTF мы делаем сайт который берет на входе электронные книги в любых форматах и на выходе дает epub - для чтения на iPad и других мобильных устройствах
 

С.

Продвинутый новичок
...из получившегося архива будет делать оглавление
А ты уверен, что в PDF не потеряется семантика текстаи и него будет сгенерить оглавление?
По-любому, как раз именно PDF -- самый худший из форматов для унификации, при том что есть xml.
 

ПашаV

Новичок
А ты уверен, что в PDF не потеряется семантика текстаи и него будет сгенерить оглавление?
По-любому, как раз именно PDF -- самый худший из форматов для унификации, при том что есть xml.
блин неужели всё так ужасно и мне мою задачу не решить?
 

Absinthe

жожо
блин неужели всё так ужасно и мне мою задачу не решить?
Подумай, почему остальные сайты не предлагают выбрать формат для скачиваемых книг. Потому что они тупые и не догадались до такой идеи?
 

С.

Продвинутый новичок
Идея с унифицированным форматом неплохая. Но 146% это должен быть не PDF. Пусть даже это и самый популярный формат. К тому же
на выходе получился HTML файл (чтобы форматирование и всё было внешне практически как в PDF)
Это с какой стати для книги формтаирование должно быть "практически как"? Откудо такое неадекватное требование?
 

ПашаV

Новичок
Идея с унифицированным форматом неплохая. Но 146% это должен быть не PDF. Пусть даже это и самый популярный формат. К тому же

Это с какой стати для книги формтаирование должно быть "практически как"? Откудо такое неадекватное требование?
это не требование, а моё предположение. Если автор загружает книгу в PDF то скачивая её же в ePub в каком виде он хочет её видеть?? наверное почти такой же как и загружал.

ВОзможно я не прав.
 

ПашаV

Новичок
На текущий момент я тестирую утилиту в Fedora на сервере pdftohtml
её можно запускать как команду

PHP:
$command = "pdftohtml [options] pdf-file [html-file] 2>&1";
$out = `$command`;
Если получится нормально конвертнуть PDF в HTML с изображениями.
Буду дальше думать.
 
Сверху