Sniffer
Новичок
Как можно фильтровать дублирующиеся сообщения
Есть сайт, например, развлекательный. Админ постоянно постит какие-то сообщения(анекдоты, рассказы и др.)
Соответственно, при росте количества сообщений админу трудно уже уследить было ли это сообщение уже опубликовано или нет. Типа боян или нет.
Необходимо придумать подход, как отслеживать и проверять данный случай. Т.е. постит он боян или же такого сообщения еще не было.
Какие мысли были:
Хранить своеобразный индекс всех слов в базе, минус всякие предлоги и артикли, и к какому посту они относятся(язык английский).
При добавлении нового сообщения проверять этот индекс и сверять с индексом нового сообщения.
И например если 60% слов совпадает, то сообщение "боян". Процент уже потом можно подобрать.
Но мне кажется, что при росте базы этот индекс так распухнет, что могут возникнуть проблемы с перфомансом.
Может есть еще какие-нибудь варианты? Посоветуйте пожалуйста.
Есть сайт, например, развлекательный. Админ постоянно постит какие-то сообщения(анекдоты, рассказы и др.)
Соответственно, при росте количества сообщений админу трудно уже уследить было ли это сообщение уже опубликовано или нет. Типа боян или нет.
Необходимо придумать подход, как отслеживать и проверять данный случай. Т.е. постит он боян или же такого сообщения еще не было.
Какие мысли были:
Хранить своеобразный индекс всех слов в базе, минус всякие предлоги и артикли, и к какому посту они относятся(язык английский).
При добавлении нового сообщения проверять этот индекс и сверять с индексом нового сообщения.
И например если 60% слов совпадает, то сообщение "боян". Процент уже потом можно подобрать.
Но мне кажется, что при росте базы этот индекс так распухнет, что могут возникнуть проблемы с перфомансом.
Может есть еще какие-нибудь варианты? Посоветуйте пожалуйста.