> опиши пожалуйста вкратце алгоритм индексирования и структуры которые хранишь, а также как их хранишь, основные идеи если можно
Для словаря строится обычная хеш-таблица (примерный код я приводил недавно в другом топике). А индекс, обычный инвертированный индекс. Тут сложно придумать что-либо новое, все уже открыто. Но найти эффективный способ работать с этим индексом на ПХП мне пока не удалось. Надо еще повозиться.
>Результатов поиска там не видно.
А что же там видно? Там приводятся номера документов. Если есть желание проверить, скачай эту колекцию текстов (она есть в инете) и проверь. Закачивать 400 мегабайт мне некуда. Просто я уже давно для проверки поиска использую этот набор документов, и в этот раз мне тоже было удобнее и использовать уже готовый набор.
> На приведенной странице ввел строку...
Ты всегда вводишь не меньше 20 слов? Я же писал, это всего лишь первая версия, даже альфой ее нельзя назвать. Если хоть одно слово встречается больше 7000 раз, скрипт останавливается, пока я не найду более эффективные алгоритмы для ПХП.
> мне очень сильно напоминает поиск на http://risearch.org/
А что здесь удивительного? Или ты думал, что я за пару часов с нуля написал этот скрипт? Все уже было написано давно, вчера я всего лишь попытался портировать перловый скрипт на ПХП.
> хочется, чтобы, все слова фразы были в одном предложении
Хочется конечно, но реально это нужно только на ОЧЕНЬ больших сайтах. А для таких сайтов уже стоит подумать о более серьезном движке. Для средних сайтов (а я думаю, что большинство имеет менее 10000 страниц), вполне можно обойтись простым поиском. В любом случае, если нужно, есть большй выбор сишных движков.