Сравнение строк

lelik17

Новичок
Здравствуйте! Встала перед о мной задача. Нужно определить степень похожести двух заголовков. Пример:

Путин отметит юбилей в кругу близких в Петербурге
Владимир Путин в Санкт-Петербурге отметит юбилей в кругу близких
Президент России Владимир Путин отмечает 60-летний юбилей

Невооружённым взглядом видно, что под этими заголовками скрывается одна и та же новость. Как можно определить это программно? Первое, что пришло в голову - разбить на слова и считать сколько слов совпало. Но может есть другие методы?
 

AmdY

Пью пиво
Команда форума
lelik17
а новоти уже где-то публикованные или их ещё нельзя нагуглить?
 

флоппик

promotor fidei
Команда форума
Партнер клуба
Путин и Навальный едят младенцев.
Путин и Навальный не едят младенцев.

Сколько слов совпадет в этих заголовках?
 

lelik17

Новичок
Путин и Навальный едят младенцев.
Путин и Навальный не едят младенцев.

Сколько слов совпадет в этих заголовках?
Вот про это я и говорю, что метод не очень то рабочий. Поэтому и спрашиваю вашего совета.

lelik17
а новоти уже где-то публикованные или их ещё нельзя нагуглить?
Нагуглить то можно конечно, но вот только скорость работы из-за этого упадёт изрядно.
 

AmdY

Пью пиво
Команда форума
lelik17
ты бы описал юскейс джля которого нужно сравнение, чтобы легче было советовать.

Но вариант с гуглением самый простой - гугланул по заголовку, проверил в выдаче ссылки на уже существующие новости с таким урлом или совпадениями в заголовке. Если в выдаче есть, значит новость как минимум пересекается. Нужно комбинировать подходы, а не искать серебрянную пулю.

флоппик
смотри какой парадокс, 10% поверят в первый заголовок, 10% во второй, а 80% интересны оба, так как считают что дыма без огня не бывает.
 

lelik17

Новичок
lelik17
ты бы описал юскейс джля которого нужно сравнение, чтобы легче было советовать.
Мне нужно добавить в БД новости из определённой RSS-ленты. При этом нужно проверять не добавлено ли уже аналогичных новостей в базу.
 

AmdY

Пью пиво
Команда форума
тогда я бы точно гугление использовал. там можно придумать пяток оптимизаций для увеличение скорости, если понадобится.
 

Фанат

oncle terrible
Команда форума
Какая очаровательная наивность.
что в самом вопросе, что в советах про гугль
 

WMix

герр M:)ller
Партнер клуба
обезьянка, в смысле модуль по определению новостей с одинаковыми названиями? жестокий ты Вурдалак, но решение и на мой взгляд правильное... оно даже в гугл подобный модуль встроен...
 

Вурдалак

Продвинутый новичок
Почему жестокий? Обезьянке надо давать бананы за хорошую работу.
 
Сверху