Структура бд для индексатора

zaartix

Новичок
Структура бд для индексатора

по долгу службы пришлось создавать индексатор сайтов. В общем сейчас структура бд такая:

база страниц:
page_id, url и т.д.

база слов:
key_id, word

база индексатора:
page_id, key_id, weight (weight - кол-во повторов слова на странице)

Вот примерная схема бд, сейчас уже, при объеме сайтов около 200 - база индексатора 23 миллиона записей.

Может кто сталкивался с подобными задачами, как можно больше оптимизировать структуру, а то тормозит по выборкам уже сайчас.
 

Wicked

Новичок
Расскажи, какие есть индексы, какими запросами производится поиск, explain этих запросов.

PS: может использовать готовые поисковики типа http://www.sphinxsearch.com/ или http://swish-e.org/ ?
 

zaartix

Новичок
Спасибо за ссылки, пойду изучать, если не подойдет - опишу тут все подробно.
У меня весьма специфичная задача, индексация нужна не совсем для полнотектового поиска, надо для определния тематики текста и выбора из базы наиболее релевантных страниц сайтов под конкретные ключевые слова. Другими словами нужно расставлять на эти страницы контекстные ссылки, в какой-то мере можно сравнить с бегуном.
 

dark-demon

d(^-^)b
а почему бы не сделать так:
page_id, url, page_content
в третее поле поместить отфильтрованный от тэгов, коротких слов, ненужных слов контент и повесить на него полнотекстовой индекс?
 

A-Lex[FM]

Web/Highload/DataScience
dark-demon
Я таким методом реализовывал поиск фтп. работает на ура.

zaartix
Советую прислушаться :)
 
Сверху