TheBattle
Новичок
Работа с документами Word без COM-объекта
Передо мной встала проблема автоматического преобразования скриптами форматов doc, xls, txt и pdf в тривиальный HTML. Если с обычным текстом всё ясно и понятно, то с остальными форматами - сплошные проблемы. По xls я нашёл скрипт, извлекающий текст, надеюсь, что и по pdf есть что-то. Однако самый распространённый документ Word - самая настоящая тёмная лошадка, если работать с ним не через COM-объект (нет Win-хостинга).
Если по такому формату, как RTF на MSDN ещё есть что-то (спецификация на английском), то DOC остаётся одним из святых таинств MS. Если даже тупо брать и открывать его fopen, то возникают проблемы с кодировками: UTF-16, используемый в файле word (как пишет редактор Bred) упорно не хочет переводиться в любую другую (с помощью mb_convert_encoding).
Вот и сиди - думай, что делать. Те скрипты по разбору xls мне мало чего дали, я не настолько опытный, чтобы понимать все смещения ячеек, без спецификации на формат - разобраться сложно.
Быть может кто знает, как всё таки перевести документы word в html (и наоборот, соотв.); или если где лежит спецификация на формат DOC, украденная у MS - тоже рад буду её увидеть.
Скриптов же, делающих эту адскую работу, я не прошу, хотя и буду рад, если они есть.
Передо мной встала проблема автоматического преобразования скриптами форматов doc, xls, txt и pdf в тривиальный HTML. Если с обычным текстом всё ясно и понятно, то с остальными форматами - сплошные проблемы. По xls я нашёл скрипт, извлекающий текст, надеюсь, что и по pdf есть что-то. Однако самый распространённый документ Word - самая настоящая тёмная лошадка, если работать с ним не через COM-объект (нет Win-хостинга).
Если по такому формату, как RTF на MSDN ещё есть что-то (спецификация на английском), то DOC остаётся одним из святых таинств MS. Если даже тупо брать и открывать его fopen, то возникают проблемы с кодировками: UTF-16, используемый в файле word (как пишет редактор Bred) упорно не хочет переводиться в любую другую (с помощью mb_convert_encoding).
Вот и сиди - думай, что делать. Те скрипты по разбору xls мне мало чего дали, я не настолько опытный, чтобы понимать все смещения ячеек, без спецификации на формат - разобраться сложно.
Быть может кто знает, как всё таки перевести документы word в html (и наоборот, соотв.); или если где лежит спецификация на формат DOC, украденная у MS - тоже рад буду её увидеть.
Скриптов же, делающих эту адскую работу, я не прошу, хотя и буду рад, если они есть.