при должном старании - можно - но не советую этого делать - ненужная трата времени: документы doc являются закрытым стандартом, тебе придется рыскать по интернету в поисках крупиц информации по способам хранения текстов и разбирать их вручную - думаю провальная затея.
juice48
с PDF таже фигня - тебе придется самому разбирать файлы по кусочкам и вытаскивать текст - не думаю, что ты сможешь оптимизировать этот процесс. Могу порекомендовать воспользоваться сторонними разработками поисковиков, которые умеют индексировать указанные документы.
kvf77, juice48
Там всё не так плохо. Откройте вордовские файлы в текстовом редакторе и всё станет понятно. Ссылка на описание стандарта есть на замечательном сайте http://www.wotsit.org/
плохо там, плохо - ты какие-то простые или созданные старыми версиями открывала - последних версий файлы нифига там не видно - может конечно в юникоде прояснится - но тож сомневаюсь