поиск дублированых сообщений

Benderlio

Новичок
поиск дублированых сообщений

есть доска объявлений....
вообщем заказчик хочет такую штуку как поиск дубликатов...
т.е. одинаковых сообщений по заголовку и содержанию...
как бы это грамотно осуществить...
как вариант поиск идентичных сообщений (1 в 1 ) можно наверное сделать контрольной суммой ... на край буквы посчитать и уже по этой цифре осуществлять поиск.. понятно что будут попадаться и левые сообщения,
глупость наверное, но тем не менее...

какие есть еще варианты ?
 

dub

Новичок
Re: поиск дублированых сообщений

Автор оригинала: Benderlio
есть доска объявлений....
вообщем заказчик хочет такую штуку как поиск дубликатов...
т.е. одинаковых сообщений по заголовку и содержанию...
Ну так в чем проблема ? смотри идентичность по заголовку и содержанию. Или тебя интересует конкретно коэффициент совпадения по этим двум полям ?
(оффтоп я почти уверен что заказчику именно это и надо :)) )
 

WP

^_^
Джойнишь в таблицу саму себя)
> наверное сделать контрольной суммой
OMG
 

Benderlio

Новичок
заказчику нужно что бы не было одинаковых объявлений ...
т.е. одинаковый заголовок и текст сообщения
 

Benderlio

Новичок
в смысле при подаче объявления, смотрим было ли объявление с таким же заголовком и имаилом, и если нет то вставляем в базу...

на сколько я понимаю группировка, это уже при выборке ?
а unique это как ? уникальный по текстовому полю ?
 

asm

Пофигист
Benderlio
Ты уж определись тебе найти все дубликаты или предотвратить их появление :)

-~{}~ 11.07.07 16:13:

Vin-Diesel
Умно, уникальный индекс по полю текст? :)))
 

Vin-Diesel

Новичок
Benderlio
уже и маил появился..

SELECT COUNT(*) FROM doska WHERE name = 'вставляемое название' AND mail = 'маил вставляемый' LIMIT 1;

Вроде так:) если возвратит 1 значит есть, 0 значит нету

-~{}~ 11.07.07 23:22:

asm
не знаю:) у меня в книжке, ничего не сказано про уникальный индекс на поле типа text. Размер большой будет? Да?
 

Benderlio

Новичок
Vin-Diesel
да это все понятно...
просто нагрузка на базу...
получается поиск по тестовому полю имаил и по названию идет....
да и народ начал вставлять пробелы и символы... короче я так понял это как с матюками бороться .... бесполезно
 

camka

не самка
Benderlio
Поставьте составной индекс на первые N символов обоих полей, и нагрузка не будет столь уж значима.
 

camka

не самка
Хотя с котрольной суммой - тоже хорошее решение, поскольку поиск будет происходить по числовому значинию. Однако, придется обновлять сумму при обновлении текстов.
 

Wicked

Новичок
Хотя с котрольной суммой - тоже хорошее решение
Как раз наоборот, т.к. оно крайне неустойчиво к незничительным различиям типа лишнего пробела или опечаткам. Хотя, если автора это устроит, то все ок.

Однако, придется обновлять сумму при обновлении текстов.
это как раз не проблема.
 
Сверху