Подсчет символов и слов в документах MS Excel/Word

pk2002

Новичок
Подсчет символов и слов в документах MS Excel/Word

Уважаемые
Стоит задача реализации на php скрипта для выполнения сабжа, под ОС linux
пробовал разные линуховские конверторы, ни один не дал приемлемого результата

Может кто в курсе каким образом это можно сделать наиболее точно
 

440hz

php.ru
<?php

$doc = new MSDocumentVisionSystemCallRequest();
$doc->Open('test.doc');
$doc->RecalculatingBodySymbols();
$cnt = $doc->GetBodySymbolsCounter();

?>
 

pk2002

Новичок
Спасибо за ответ

под ОС linux такое прокатит?
и где взять класс MSDocumentVisionSystemCallRequest?
гугля вообще не находит информацию по этому классу

>Не найдено ни одного документа, соответствующего запросу MSDocumentVisionSystemCallRequest.

Дайте плиз наводку
 

pk2002

Новичок
Ну у меня этот код не работает. Говорит что класс не найден
Поэтому и спросил
Если несложно, растолкуйте плиз почему ппц...

Fatal error: Class 'MSDocumentVisionSystemCallRequest' not found
 

440hz

php.ru
Если несложно, растолкуйте плиз почему ппц
ты уж извини... это шутка такая...
боле-менее знакомый с php сразу был въехал.
ты видно совсем начинающий, да еще с такой задачей...

не. ну даже по названиям понятно что шутка...

p.s. а вообще парсить MS документы под линуксом - это брутально. эт на всю жизнь...
 

pk2002

Новичок
Автор оригинала: 440hz
ты уж извини... это шутка такая...
боле-менее знакомый с php сразу был въехал.
ты видно совсем начинающий, да еще с такой задачей...

не. ну даже по названиям понятно что шутка...

p.s. а вообще парсить MS документы под линуксом - это брутально. эт на всю жизнь...
ну почему брутально
есть antiword, catdoc и другие утилиты
Просто они не дают достаточной точности, некоторые погрешности при конвертации

Если пишут подобные утилиты, значит не совсем брутально :)
Да и под линухом тот же openoffice нормально с MS форматами работает
 

fast2111

Новичок
Если ты используешь конверторы, то
из .xls и .doc -> .html и др.
А дальше сам знаешь.

Используй openoffice и сохраняй документы в html или еще в каком формате.
 

440hz

php.ru
ни один не дал приемлемого результата
а можно уточнить на сколько результаты утилит расходятся с нужными цифрами?

и откуда возникла такая задача? издательство?
 

pk2002

Новичок
Автор оригинала: fast2111
Если ты используешь конверторы, то
из .xls и .doc -> .html и др.
А дальше сам знаешь.

Используй openoffice и сохраняй документы в html или еще в каком формате.
Проблема в том, что конверторы (те что я видел) дают погрешность при конвертировании.
Можешь подскажешь какие знаешь линуховые конверторы в html?
с опенофисом понятно, но нужен вебсервис. Загружаешь через форму файл - получаешь количество символов

а можно уточнить на сколько результаты утилит расходятся с нужными цифрами?
Расхождение на тех доках что я тестировал где-то в пределах 10%, от того что показывают openoffice и ms office. Хотелось бы поточнее

и откуда возникла такая задача? издательство?
Что-то типа издательства, насколько я понял

Да и самому уже интересно разобраться :)
С виндой все понятно, можно OLE+MS Office заюзать, а вот как в линухе
 

fast2111

Новичок
если утраивает openoffice, то можно его использовать как утилиту командной строки... если я не ошибаюсь что-то вроде uno.

И есть классы для только для чтения тех же xls...

Пусть отдают файлы в виде html :)

Да я погорячился насчет openoffice... на хостинге такое слишком жирно
 

pk2002

Новичок
Автор оригинала: fast2111
если утраивает openoffice, то можно его использовать как утилиту командной строки... если я не ошибаюсь что-то вроде uno.

И есть классы для только для чтения тех же xls...

Пусть отдают файлы в виде html :)
...
В том-то и загвоздка, что хотят именно в doc, xls
С html проблем бы не было :)
 

alexcrown

Новичок
Есть вариант не заниматься подсчетом, а использовать метаинформацию, которую word пишет в файл (посмотреть её можно в проводнике, например, в свойствах файла) - там есть нужная вам информация.
Думаю, её можно выдернуть прямо из файла. По крайней мере вот эта программа умеет http://meta-extractor.sourceforge.net/ (кросплатформенная, на java, может работать из командной строки)
 
Сверху