Я могу сказать следущее - я занимаюсь проблемой Word2HTML, в принципе, это возможно. Только геморно, и готового решения нет. Обычно парсеры "обманывают" юзера, а именно берут и парсят html так, как любит Word, и разрешение его прилаживают... но это немного не в тему.
А если по теме... MSDN не содержит документации на Word, одно время Microsoft скрывала это дело. Сейчас дело обстоит не лучше. В рунете есть лишь одна статья, не помню уже, как называется, но там упор делается на C++, и она неполная.
В случае PHP есть парсер из xls в текст, или более профессиональный на Pear'e лежит, тот без COM-технологии может не только создавать из Excel, но ещё его и делать.
Существуют также несколько программ, вроде Antiword, так вот они под Unix работают, и могут быть вроде как инструментами для создания документов "на лету". Правда, только корректно работают в том случае, когда документы создаются не в режиме "быстрого сохранения". Ещё есть проект Open Office, но это отдельная тема (исходников на 250 мегабайт, и на Java, если не ошибаюсь).
Но если у меня будет сильное желание, то через месяца три упорного труда я напишу скрипт (попытаюсь, по крайней мере), который будет извлекать текст из word в html.
Насчёт pdf ничего не скажу, хотя и есть библиотека, работающая с такими документами.