donflash
Вареник клуба
Выдирания из куска текста слов-существительных
Собственно есть задача автоматизированной расстановки тегов для новостей. Алгоритм такой:
1) в качестве тегов должны использоваться только слова существительные,
2) определение того, является ли слово тегом, должно проходить на основе частоты его упоминания в полном описании новости
Вопрос в первом пункте. В поиске нашёл парочку похожих тем, но суть там не была раскрыта. Погуглив, нашёл базы, но они содержат далеко не "существительные"... Может я плохо искал или ещё что... Кто-нить подскажет куда рыть?
Собственно есть задача автоматизированной расстановки тегов для новостей. Алгоритм такой:
1) в качестве тегов должны использоваться только слова существительные,
2) определение того, является ли слово тегом, должно проходить на основе частоты его упоминания в полном описании новости
Вопрос в первом пункте. В поиске нашёл парочку похожих тем, но суть там не была раскрыта. Погуглив, нашёл базы, но они содержат далеко не "существительные"... Может я плохо искал или ещё что... Кто-нить подскажет куда рыть?
