dima-u
Новичок
Найти общие тенденции/тренды в микроблогах пользователей.
Поставили задачу:
У каждого пользователя на сайте показывается текущий статус, читай:микроблог, это одна колонка в таблице длинной 0-255 символов (mysql varchar)
Надо чтобы выбиралось пять самых популярных фраз, т.е. повторяющихся. Т.е. рейтинг некий, актуальный, чтобы каждый день или час он обновлялся по текущему состоянию колонки.
Соотв. кол-во пользователей 5-10 тысяч.
Пока не очень представляю решение задачи, на ум приходит:
-построить индекс с учетом морфологии
-сгруппировать как-то этот индекс по количеству попаданий в соотв. ключ индекса и отсортировать
Может кто-либо сталкивался с таким =)
Лично мое мнение - задача не простая.
Поставили задачу:
У каждого пользователя на сайте показывается текущий статус, читай:микроблог, это одна колонка в таблице длинной 0-255 символов (mysql varchar)
Надо чтобы выбиралось пять самых популярных фраз, т.е. повторяющихся. Т.е. рейтинг некий, актуальный, чтобы каждый день или час он обновлялся по текущему состоянию колонки.
Соотв. кол-во пользователей 5-10 тысяч.
Пока не очень представляю решение задачи, на ум приходит:
-построить индекс с учетом морфологии
-сгруппировать как-то этот индекс по количеству попаданий в соотв. ключ индекса и отсортировать
Может кто-либо сталкивался с таким =)
Лично мое мнение - задача не простая.
