Поиск совпадений

denisOg · 10 Дек 2014

Есть массив фраз (pdf, pdf edit, pdf edit form,......) - таксих фраз около 4 млн и есть несколько текстов, около 10 000. Эти данные все время растут.

Нужно посчитать сколько каждая фраза встречается в тексте. Как быстрее это сделать?
Певрное что приходит на ум - искать регуляркой. Но как то долго и ресурсоемко.
Думал запихнуть эти текста в БД и делать поиск по тексту. Но нужно считать сколько раз совпало слово в тексте (а запрос просто выбирет текст)
Может есть сервис/библиотека/софт, который бы делал быстро и качественно эту работу?

Спасибою.

fixxxer · 10 Дек 2014

inverted index

denisOg · 11 Дек 2014

fixxxer написал(а):
inverted index

спасибо. но как быть со словосочетаниями?
только одна мысль: разбить тест по словам и при поиске словосочетания(фразы) найти документы по всем словам а потом вторым фильтром сделать уже поиск словосочетаний
хотя у нас 70-80% словосочетаний.....

peon · 11 Дек 2014

откуда берутся словосочетания для поиска?

denisOg · 11 Дек 2014

peon написал(а):
откуда берутся словосочетания для поиска?

Это ключевые слова из поисковика. из системы Google adwords

peon · 11 Дек 2014

ключевики хранить как хеш суммы
далее текст разбить на все возможные уникальные словосочетания и их количество в тексте
и получить хеш каждого словосочетания
далее икасть по хешу

WMix · 11 Дек 2014

peon · 11 Дек 2014

WMix, да, это придумали ~полвека/1.5 назад
ну и предложил, раз его смутил inverted index

denisOg · 11 Дек 2014

peon написал(а):
ключевики хранить как хеш суммы
далее текст разбить на все возможные уникальные словосочетания и их количество в тексте
и получить хеш каждого словосочетания
далее икасть по хешу

спасибо.

denisOg · 11 Дек 2014

WMix написал(а):

вы что то другое можете предложить?

fixxxer · 11 Дек 2014

Инвертированный индекс предполагает хранение позиций (в том или ином виде), где искомое слово встречается в оригинальном тексте. Это позволяет определить расстояние между словами. Дальше через функцию от слов и расстояний определи для себя, что такое "встречается словосочетание".

Еще, конечно, можно просто взять готовую реализацию: sphinx, или elasticsearch, или какую-нибудь там lucene - но, я так понимаю, мы не ищем легких путей

Поиск совпадений

denisOg

Новичок

fixxxer

К.О.

denisOg

Новичок

peon

Lok'tar ogar

denisOg

Новичок

peon

Lok'tar ogar

WMix

герр M:)ller

peon

Lok'tar ogar

denisOg

Новичок

denisOg

Новичок

fixxxer

К.О.