можно ли прочитать pdf файл?

Raven

Guest
можно ли прочитать pdf файл?

Как это можно сделать? Есть ли библиотека или что-нибудь?
Из pdf файла мне надо вытащить только не большой кусок текста.
Это надо сделать по linux.

С уважением,
Сергей

P.S.
Если есть внутренние возможности linux'а это делать, то тоже подойдёт.
 

Raven

Guest
Спасибо, пока что не разбирался. Сейчас посмотрю, надеюсь, поможет.

С уважением,
Сергей
 

Фанат

oncle terrible
Команда форума
На самом деле жутко бесит.
Тот же пхпинсайд. или вот сейчас доки пришлось читать по всяким дсл-модемам.
Спрашивается - зачем разивали компьютеры, если на 4 году 21 века все так же слюнявим палец и листаем мышкой страницы в поисках нужного слова.
 

svetasmirnova

маленький монстрик
Re: можно ли прочитать pdf файл?

P.S.
Если есть внутренние возможности linux'а это делать, то тоже подойдёт.
Ghostscript (~10 Mb, http://www.cs.wisc.edu/~ghost/) - пакет для работы с PDF и PostScript файлами.
С библиотеками из этого пакета работают многие (процентов 90) программы манипулирования PDF и PostScript файлами для Linux.

Всё для Linux (в т.ч.) и бесплатно.

А сам не пытался? Вопрос не совсем праздный, поскольку не встречала доступных PHP скриптов для свободной манипуляции файлов формата типа PDF или Word.
 

Raven

Guest
возвращая к этой теме, всё что здесь ранее обсуждалось, в виде pdf2html pdftohtml полная фигня!!! Один создаёт png файлы, вместо html как это сказано (только если перевести правильно, то там не сказано что текст ИЗ pdf файла будет в HTML формате). Второй продукт, хоть и сказано в manual, что он и под линукс есть, то кроме windows кода там ничего нет.

Если всё же, кто-то знает как работать с pdf и получить текст по LINUX (не Windows, не Macintosh, San или что-нибудь другое). Пожалуйста откликнитесь. Предложения в виде сам попробуй написать не принимаются, так как у меня всего день на программирование остался. Быстрее будет тогда уж на perl это сделать.... Но хочу на PHP.

Заранее благодарен.

С уважением,
Сергей
 

neko

tеam neko
Спрашивается - зачем разивали компьютеры, если на 4 году 21 века все так же слюнявим палец и листаем мышкой страницы в поисках нужного слова.
а ты поиском, поиском :)
в последней версии ридера можно даже по директориям искать
 

Фанат

oncle terrible
Команда форума
Raven
А ожно вопрос? Не относящийся, надо признать, к теме.
Если брать готовое, то какая разница, на чем оно будет написано?
 

Дионис

Guest
Для работы с pdf есть библиотека pdflib на сайте www.pdflib.com.
В Win эта библиотека уже встроена: php_pdf.dll
 

svetasmirnova

маленький монстрик
Originally posted by Фанат
Raven
А ожно вопрос? Не относящийся, надо признать, к теме.
Если брать готовое, то какая разница, на чем оно будет написано?
Как я понимаю, вопрос ко мне.
Проблема в том, что мне недостаточно простого извлечения текста из файлов типа Word или PDF. Мне нужна полная информация о форматировании. (Word для меня более актуален, так что это уж совсем offtopic:) ) Поэтому мне хотелось бы изменить (в смысле extend) готовую программу под свои нужды. Так как я not familar with C и использую shared хостинг, то мне хотелось бы сделать это, используя PHP. После долгих поисков и неудачных попыток портировать на PHP некоторые программы пришла к выводу, что придётся всё писать самостоятельно и с нуля. Поэтому и спрашиваю у людей со схожими проблемами, не пытались ли они что-то подобное сделать.
 

Raven

Guest
Честно говоря, и то что посоветовали не работает так как надо:-(
Хоть это уже и не требуется, но просто совет на будущее. Если вы советуете как-то решить проблему, убедитесь в том, что вы поняли текст правильно и отвечай по сути дела.
Всё что советовали, либо не работает по Linux, либо ВООБЩЕ не читает из pdf и не представляет в виде текста инфу, которая там представлена.
Хорошо есть perl ещё, там всё понятно и работает безотказно. Вот только с кодировками пришлось повозиться.

С уважением,
Сергей
 

advocat

developer
Уважаемый, Вот как раз в этом месте Вы ошибаетесь. Так как я лично проверял xPDF под Линуксом и под FreeBSD. Работает на ура. Тем более, наскоклько я знаю, она есть в дистрибутиве как линуха, так и фрихи. В крайнем случае, ее можно собрать с исходников.
 
Сверху