Конвертор из Word в HTML

thunderslim

Новичок
Конвертор из Word в HTML

Надо написать конвертор из Ворда в ХТМЛ или вообще лучше сделать скрипт вытаскивающий всю информацию из вордовского файла в нормальном виде и подготовленную для записи в БД. Вот такое вот у меня задание. Хотел спросить - кто-нибудь уже этим занимался? Есть ли пировские библиотеки похожие какие-нибудь? Может быть есть какие-то идеи? Проблема вся в том, что версии Вордов разные и надо писать универсальный парсер какой то. Вообщем бандос:)
 

Kivsiak

Новичок
Сохранить как. html + быстро поросто. - куча мусора в тексте. (есть готовые чистильщики Dreamweather к примеру)
Сохранить как. xml +можно написать конвертор в норамльный html - время на изучение формата.
Макрос на vb. На уровен vb конвертишь в то что тебе надо. +сразу получаешь то что нужно, можно обработать сразу кучу фаилов. - нужно не полохо знать vba
 

Alexandre

PHPПенсионер
сохраянть черз сом в в любой простой формат и парсить
хорошо бы еще знать этот простой формат

xml , RTF и HTML в ворде генериться через одно место,
sergadm догадываешься какое или продемонстрировать на примере сгенеренного формата??

остается только один txt, тогда теряются все стили
 

thunderslim

Новичок
ооо, нет, нет, нет!!.. То, что куча офлайновых конверторов существует - это понятно. Мне же надо обрабатывать вордовские файлы в потоке. В простой формат сохранять не получиться. Единственное решение, которое в голову приходило это на C# писать, там уже есть более или менее готовые решения, но это не пойдет, потом что сервак на unix'e. ASP на нем нету и не будет. Это надо делать срдествами PHP и тем что будет работать на серваке - чем ещё пока не знаю.
 
Сверху