Конвертация из форматов pdf,doc в html или txt "на лету"

Stydent

Новичок
Конвертация из форматов pdf,doc в html или txt "на лету"

Что можете подсказать по этому поводу?
 

TheBattle

Новичок
Я могу сказать следущее - я занимаюсь проблемой Word2HTML, в принципе, это возможно. Только геморно, и готового решения нет. Обычно парсеры "обманывают" юзера, а именно берут и парсят html так, как любит Word, и разрешение его прилаживают... но это немного не в тему.

А если по теме... MSDN не содержит документации на Word, одно время Microsoft скрывала это дело. Сейчас дело обстоит не лучше. В рунете есть лишь одна статья, не помню уже, как называется, но там упор делается на C++, и она неполная.
В случае PHP есть парсер из xls в текст, или более профессиональный на Pear'e лежит, тот без COM-технологии может не только создавать из Excel, но ещё его и делать.

Существуют также несколько программ, вроде Antiword, так вот они под Unix работают, и могут быть вроде как инструментами для создания документов "на лету". Правда, только корректно работают в том случае, когда документы создаются не в режиме "быстрого сохранения". Ещё есть проект Open Office, но это отдельная тема (исходников на 250 мегабайт, и на Java, если не ошибаюсь).

Но если у меня будет сильное желание, то через месяца три упорного труда я напишу скрипт (попытаюсь, по крайней мере), который будет извлекать текст из word в html.

Насчёт pdf ничего не скажу, хотя и есть библиотека, работающая с такими документами.
 

TheBattle

Новичок
На винде без проблем - COM-объект тебе поможет. Заходи в подраздел PHP и Windows и читай всё, что там написано по этому поводу.
 

neko

tеam neko
под юникс есть catdoc для word/excel
а для pdf вообще немеряно тулз.

изобретателям рекоммендую применять гугл.
он рулез.

-~{}~ 07.03.06 14:38:

кстати, зачем это нужно?
 

TheBattle

Новичок
Я знаю эту вещь. Вот что про неё написали буквально недавно:

Catdoc

Slightly less flexible than Antiword, but still useful, is Catdoc, whose developer explains that "it does same work for .doc files as the Unix cat command for plain ASCII files."

While Antiword tries to retain some of the formatting of a Word file, Catdoc is a quick and dirty tool. It outputs either LaTeX or plain text, and little else. The LaTeX output leaves a lot to be desired -- it does nothing beyond adding the LaTeX formatting for tables or special characters. You'll have to add the LaTeX preamble and any other formatting code yourself.
 
Сверху