jeka!
Просто Member
Поиск и сравнение оригинальных текстов
Информация к размышлению!!!
Анекдоты :: пользовательский ввод.
В общем, имеется БД анектотов, колличество 6000 штук.
Посетитель может записывать свои, но, как правильно проверить, имеется ли этот анекдот уже в БД???
Я сделал примитивно, просто создал в таблице дополнительное поле с ограничением 200 символов, уникальное, и туда дописывается часть анекдота.
И при добавлении, если этот текст уже был, то он ессно не добавляется.
Но если изменить хоть одну букву, то всё пролезет.
Я думаю, нужно создавать некий набор слов присутствующий в этом тексте и уже сравнивать их не зависимо от расстановки. Но сравнить 6000 анекдотов это потребует очень много времени. Как можно решить такую проблему, чтоб поиск дубликатов был как можно меньше по времени и с максимум точности?
Информация к размышлению!!!
Анекдоты :: пользовательский ввод.
В общем, имеется БД анектотов, колличество 6000 штук.
Посетитель может записывать свои, но, как правильно проверить, имеется ли этот анекдот уже в БД???
Я сделал примитивно, просто создал в таблице дополнительное поле с ограничением 200 символов, уникальное, и туда дописывается часть анекдота.
И при добавлении, если этот текст уже был, то он ессно не добавляется.
Но если изменить хоть одну букву, то всё пролезет.
Я думаю, нужно создавать некий набор слов присутствующий в этом тексте и уже сравнивать их не зависимо от расстановки. Но сравнить 6000 анекдотов это потребует очень много времени. Как можно решить такую проблему, чтоб поиск дубликатов был как можно меньше по времени и с максимум точности?