Работа с документами Word без COM-объекта

TheBattle

Новичок
Работа с документами Word без COM-объекта

Передо мной встала проблема автоматического преобразования скриптами форматов doc, xls, txt и pdf в тривиальный HTML. Если с обычным текстом всё ясно и понятно, то с остальными форматами - сплошные проблемы. По xls я нашёл скрипт, извлекающий текст, надеюсь, что и по pdf есть что-то. Однако самый распространённый документ Word - самая настоящая тёмная лошадка, если работать с ним не через COM-объект (нет Win-хостинга).

Если по такому формату, как RTF на MSDN ещё есть что-то (спецификация на английском), то DOC остаётся одним из святых таинств MS. Если даже тупо брать и открывать его fopen, то возникают проблемы с кодировками: UTF-16, используемый в файле word (как пишет редактор Bred) упорно не хочет переводиться в любую другую (с помощью mb_convert_encoding).

Вот и сиди - думай, что делать. Те скрипты по разбору xls мне мало чего дали, я не настолько опытный, чтобы понимать все смещения ячеек, без спецификации на формат - разобраться сложно.
Быть может кто знает, как всё таки перевести документы word в html (и наоборот, соотв.); или если где лежит спецификация на формат DOC, украденная у MS - тоже рад буду её увидеть.
Скриптов же, делающих эту адскую работу, я не прошу, хотя и буду рад, если они есть.
 

Кром

Новичок
А не легче ли приобрести таки за пару долларов win хостинг с поддержкой com?
 

TheBattle

Новичок
А не легче ли приобрести таки за пару долларов win хостинг с поддержкой com?
Да дело в том, что не от меня зависит - делаю диплом для университета. А так конечно, проще.
 

Кром

Новичок
>Да дело в том, что не от меня зависит - делаю диплом для университета. А так конечно, проще.

Спецификаций по doc формату в сети нет, так что позиция страдальца от которого ничего не зависит здесь не уместна.
Используй win-сервер с поддержкой com.
 

TheBattle

Новичок
Ну да, конечно... у нас на кафедре PHP даже не проходят
Спецификаций по doc формату в сети нет, так что позиция страдальца от которого ничего не зависит здесь не уместна. Используй win-сервер с поддержкой com.
Надо просто. К тому же, раз есть скрипты по работе с Excel, то почему бы не существовали методы по работе с Word? А ради меня на сервере универа никто не будет Free BSD на Win менять. Можно, конечно, замутить на собственные деньги, но что-то не охота. Поэтому и приходится думать.

-~{}~ 10.02.06 14:58:

Кстати, не надо было быть столь категоричными - Win-хостинг и всё. Нашёл вот способ работы - через CGI-приложение. К нему обращаешься, а оно делает всю работу.
Правда, придётся повозиться - установить библиотеки, но зато можно работать на любой платформе. И всё же это не то, что хотелось. Буду искать дальше.
 

Кром

Новичок
>Нашёл вот способ работы - через CGI-приложение. К нему обращаешься, а оно делает всю работу.

Что за приложение? Куда обращаешся?
 

TheBattle

Новичок
>Нашёл вот способ работы - через CGI-приложение. К нему обращаешься, а оно делает всю работу.

Что за приложение? Куда обращаешся?
Нашёл кросс-платформенную библиотеку, которую компилишь и к получившемуся приложению обращаешься из скрипта, передавая ей во входных параметрах инфу о doc-файле.
Но это не совсем то, что хотелось, потому что устанавливать файлы нужно; лучше было бы скрипт иметь, чтобы тот обращался непосредственно к doc-файлу.
 

vw

Новичок
Автор оригинала: TheBattle
Нашёл кросс-платформенную библиотеку, которую компилишь и к получившемуся приложению обращаешься из скрипта, передавая ей во входных параметрах инфу о doc-файле.
Но это не совсем то, что хотелось, потому что устанавливать файлы нужно; лучше было бы скрипт иметь, чтобы тот обращался непосредственно к doc-файлу.
А что за библиотека? Кинь ссылку, плиз.
 
Сверху