выделение значащих слов (меток, тегов) из текста

que_bunt · 20 Мар 2009

выделение значущих слов (меток, тегов) из текста

здравствуйте

довольно часто в сайтах типа web 2.0 пользователь который пишет на сайте материал (статью, делает закладку, задает вопрос и тд.) может видеть поле Метки (теги), где перечисляет к чему относиться его материал.

но зачастую пользователям лень писать такие метки

соответственно возникает задача проставить метки (теги, значущие слова или как это еще можно назвать) к тексту вместо пользователя.

пока придумал только: взять 3 самых повторяемых слова (длиной больше 3 букв)

но возможно кто-то еще посоветует простые варианты развязания проблемы?
нужно не идеальный, а именно простой и действенный вариант, ведь не писать же систему морфологического разбора.

буду благодарин за мысли.

weregod · 20 Мар 2009

к сожалению в пятницу вечером Мыслей нет, есть только мысли:

аббревиатуры легко могут быть <= 3 символов
могут начать попадать в теги слова типа "потому"
то есть для Вашей схемы придётся вводить какие-то исключения

если материалы каким-то образом кроме тегов категорезированны, возможно стоит добавить интерфейс накликивания самых популярных тегов из текущей категории (кроме ручного ввода)?
+ если пользователь не проставил еще никаких тегов, можно выводить дополнительный запрос на автогенерацию оных с дефолтным ответом "да, я хочу ввести теги вручную"

que_bunt · 20 Мар 2009

weregod, абревиатуры это то чем в моем случае можна принебречь

исключения это конечно минус, но думаю за день присмотра за генерацией можна собрать достаточную базу исключений

накликивание из текущих самых популярных это понятно, но потом когда будет нормальная база меток

на даный момент задача стоит не как заставить пользователя ввести метки, а именно генерация меток из текста.

dimagolov · 20 Мар 2009

que_bunt, с чего ты вообще решил, что наиболее частоупотребимые слова в тексте годятся для смысловых тегов? имхо для смысловых тегов годятся только существительные, личные имена и иногда причастия. то есть твоя довольно дурацкая и маловажная задача "именно генерация меток из текста ... до того как .... будет нормальная база меток" превращается в задачу лексического разбора текста на украинском и видимо русском языках, которая совсем не тривиальна.

вывод - забей на этот костыль и просто требуй ввода минимум одной метки от пользователя.

pilot911 · 20 Мар 2009

ребята сделали хороший скрипт - можешь у них поинтересоваться

http://diff.biz.ua/keywords.php

AmdY · 21 Мар 2009

в первую очередь нужно искать в тексте уже существующие теги, выделенные слова(жирным, наклонным, в ковычках), англоязычные для русских текстов, слова капсом

antson · 21 Мар 2009

que_bunt
нетривиальная задача, если реализация будет на
достойном уровне, то "большой брат" придет к тебе

а если серьезно, то над классификацией текстов по смыслу народ бьется не одно десятелетие.

поисковые системы, спам фильтры, автоматизированные системы разыскных мероприятий вот не полный перечень.

даже выделив тег Иванов И.И. по хорошему стоит задача
разделить между собой известного человека и паренька из соседнего подъезда.

Покопайся в тестовых заданиях яндекса для соискателей, там встречались названия математических методов.

Или сужать задачу до реализуемого уровня.
что то типа корреляций (1 и выше порядков) , цепей маркова.

Страшный Злодей · 21 Мар 2009

que_bunt
Плюс, к тому, что сказали выше, можно создать словарь тегов, тех, что уже раньше вводили пользователи. Через этот словарь, как через сито, прогоняйте тексты, где юзеры, забыли указать метки. Это, судя по всему, используется например на ya.ru блогах, да и во многих других сервисах.

que_bunt · 21 Мар 2009

спасибо всем за ответы и комментарии, они помогли мне решить задачу на том уровне который меня удовлетворяет, я бы сказал получилось даже лучше чем мне нужно было.

использовал программу mystem от Ильи Сегаловича, технический директор Яндекса (http://company.yandex.ru/technology/mystem/)

алгоритм получился простой:
- отдать текст парсеру mystem
- получить на выходе лемы и граммемы
- отпарсить только существительные
- выбрать 3 наиболее повторяемых слова

проверил на новостях с news2.ru - теги для текста почти всегда совпадают с указаными там.

благодарю всех за помощь!

выделение значащих слов (меток, тегов) из текста

que_bunt

Новичок

weregod

unserializer

que_bunt

Новичок

dimagolov

Новичок

pilot911

Новичок

AmdY

Пью пиво

antson

Новичок

Страшный Злодей

Бывший член клуба (достало хамство).

que_bunt

Новичок