Как можно фильтровать дублирующиеся сообщения

Sniffer

Новичок
Как можно фильтровать дублирующиеся сообщения

Есть сайт, например, развлекательный. Админ постоянно постит какие-то сообщения(анекдоты, рассказы и др.)
Соответственно, при росте количества сообщений админу трудно уже уследить было ли это сообщение уже опубликовано или нет. Типа боян или нет.
Необходимо придумать подход, как отслеживать и проверять данный случай. Т.е. постит он боян или же такого сообщения еще не было.

Какие мысли были:
Хранить своеобразный индекс всех слов в базе, минус всякие предлоги и артикли, и к какому посту они относятся(язык английский).
При добавлении нового сообщения проверять этот индекс и сверять с индексом нового сообщения.
И например если 60% слов совпадает, то сообщение "боян". Процент уже потом можно подобрать.

Но мне кажется, что при росте базы этот индекс так распухнет, что могут возникнуть проблемы с перфомансом.

Может есть еще какие-нибудь варианты? Посоветуйте пожалуйста.
 
Сверху