volnistii11, тут вот какое дело. Ты настолько не рядом с программированием....
Я бы так не рубил с плеча, коллега, тем более что новичок пришел за помощью, и это вполне нормально. Если у вас, коллега, не хватает терпения на объяснения прописных истин, то, это сугубо ваши, личные проблемы и это мое сугубо личное мнение о вас.
volnistii11 Полнотекстовый поиск, Сфинкс и Эластик Сёрч - все это естественно тру текнолоджис, но, возможно, новичку будет интереснее и полезнее организовать свой поисковый индекс, основанный на таблице словаря и связей с объектами (записями в других таблицах). Возможно у
volnistii11 нет такой явной потребности организовывать полнотекстовый поиск по всему сайту. Итак, попробую прояснить свою мысль.
Фанат меня да поправит. Создаем таблицу Vocabulary с двумя полями
id int NOT NULL AUTO_INCREMENT
,word varchar(255) NOT NULL
построим составной уникальный индекс по этим двум полям. Данная таблица будет словарем и будет содержать только слова.
Вторая таблица Vocabulary_Index будет состоять из двух полей
object_id int NOT NULL
word_id int NOT NULL
По данным полям также строим составной не уникальный индекс. Данная таблица будет связывать наши сущности (товары, каталоги, новости и т.д. и т.п. по object_id со словами словаря. Что делать со склонениями и падежами, т.е. окончаниями слов? Все просто. Можно подойти к данному вопросу эмпирически и объявить, что у слов длинной от 4 до 5 символов мы отбросим последнюю букву, у слов длиной от 6 до 9 символов - две последние буквы, а у слов от 10 символов и более - 3 последние буквы. Слова, длина который менее 3-х символов вообще не будем вносить в таблицу словаря.
Алгоритм построения индекса весьма прост. Берем текст, разбиваем его на слова, игнорируем слова длиной менее 3-х символов, применяем вышеописанный алгоритм обрезки слов, Проверяем наличие слова в словаре, если его нет, то добавляем, получаем его id, если слово есть, то берем его id и создаем запись в таблице Vocabulary_Index с id сущности и нашим словом.
Собственно все.
P.S. Можно даже применить простейший алгоритм релевантного поиска. Наиболее подходящие сущности будут содержать максимальное число найденных слов - это тоже получено эмпирически. Я так строил базу нормативных документов а ля "Гарант, Консультант" для среднего банка, все прекрасно работало и находилось. Словарь содержал порядка 30 000 слов, индекс содержал порядка 1 200 000 записей.
P.P.S. Ах, да, забыл про числительные, левые символы, английский язык. Если они не нужны, то такие слова просто игнорируем, если нужны, то целиком, без обрезки вносим в словарь.