Как вытащить данные из doc?

Vlad_c

Guest
Как вытащить данные из doc?

есть доковский файл нужно выдащить из него данные и запихнуть в базу на mysql как это можно сделать?
 

Yurik

/dev/null
imho только 2 способами:
1. вручную
2. в php через СОМ (только на винде)

Если устраивает 2 - могу подсказать как
 

tche

Новичок
Re: Как вытащить данные из doc?

Автор оригинала: Vlad_c
есть доковский файл нужно выдащить из него данные и запихнуть в базу на mysql как это можно сделать?
1. открыть файл чем-то, что умеет читать doc, на виндах понятно чем, на линуксе можно воспользоваться OpenOffice, если не очень сложный файл, что он вполне все корректно открывает
2. самое, ИМХО, простое - выдрать из него текст путем пересохранения в TXT
3. парсить TXT обычным образом на PHP и пихать по мере надобности в базу данных
4. OpenOffice предлагает весьма гибкие, но достаточно мудреные механизмы работы с данными, то есть правильно было бы конечно ничего не пересохранять
 

tche

Новичок
Re: Re: Как вытащить данные из doc?

ЗЫ

Я имел ввиду конечно автоматическую выдиралку, то есть пишешь скрипт, который запускает OpenOffice, потом парсит и заполняет БД. OpenOffice надо запускать в Xvbf.
 

Yurik

/dev/null
ну если OpenOffice имеет параметры запуска из командной строки позволяющие дать команду конвертировать файл - то можно и на *nix
 

tche

Новичок
Автор оригинала: Yurik
ну если OpenOffice имеет параметры запуска из командной строки позволяющие дать команду конвертировать файл - то можно и на *nix
пишется макрос на автостарт, который делает Save as и Exit
запускается через exec('soffice file_name')

настраивать все крайне гимморно, но зато вполне универсально, хоть поверпоинт открывай.

Я это использовал для создания PDF-ов на линуксе из вордовых, эксельных и прочих файлов, все готовые решения оказались глючными.
 

clevel

Новичок
еще есть коммерческая либа, которая позволяет при помощи пхп без сторонних либ, бинарников создавать и сохранять rtf файлы... стоит 50 баков...
если надо, дам линк... а ты потом мне копию... :)
 

stron

Guest
Здесь на форуме какой-то парень написал "либу" но только которая выдерает все с Exel. Найди, подправь, и дай народу! :)
 

clevel

Новичок
stron ты разницу между excel и word чувствуешь? Или для тебя все продукты от мелголапых на одно лицо?
 

Линк

Guest
Господа, Вы что ли ссылку young'a принципиально игнорите?
:D

Что бы не дай Бог не решить вопрос?
 

young

Новичок
Господа, Вы что ли ссылку young'a принципиально игнорите?
Я этого тоже вот никак в толк не возьму. Проверенное, работающее решение для Linux-серверов.

Здесь на форуме какой-то парень написал "либу" но только которая выдерает все с Exel. Найди, подправь, и дай народу!
ну там как, Excel например сначала кодируется в biff а потом еще раз кодируется в OLE2
У Word верхняя оболочка тоже OLE2, так-что пол дела сделано :)
 

stron

Guest
Автор оригинала: clevel
stron ты разницу между excel и word чувствуешь? Или для тебя все продукты от мелголапых на одно лицо?
:) Почувствуй разницу, вот Young меня понял, хотя что и как кодируют продукты мелкомягких известно только гейтцу и господу богу.
Могу сделать только одно замечание, если нравиться "ворд" то хранить файлы надо в rtf тогда и проблем не будет.
 

Линк

Guest
.. тем более что в MSDN есть ПОДРОБНЕЙШЕЕ описание RTF
а в новой версии (office 2003) они вообще файлы в xml будут сохранять))
 
Сверху