Анализ текста

NekeLine

Guest
Анализ текста

Кто-нибудь сталкивался?
Нужно анализировать текста на пример его смысловой нагрузки. То есть определять эмоцианальную окраску сообщения, его агрессивность, вопрос это или нет, и.т.д. и.т.п...
Если есть доки по этому поводу..буду рад..вообще все что может помочь на ваш взгляд.
Спасибо.
 

domino

Новичок
какие нафиг доки? ;) решение такое -
1. создаём массив со словами, которые можно квалифицировать как агрессивные.
2. создаём массив со словами, которые можно квалифицировать как миролюбивые.
3. ............
.
.
.
N. создаём массив с знаками припинания - ?, !.......
N+1. анализируем предложение
я думаю, что по другому тебе комп никак не ответит - это предложение вопросительное, а это агрессивное - бань его скорее ;)
 

Vallar_ultra

Любитель выпить :)
2domino
эмоцианальная окраска - это ОЧЕНЬ сложная вещь для анализа, и делить по знакам припинания - это чушь!

2NekeLine
Эт тебе надобно читать труды по метолингвистике
вообще можещи посмотреть такие темы как "Когнитивная лингвистика" и "Метолингвистика"....
А вообще это на форумы психологов, лингвистов и те форумы где они тусуются вместе :)
 

NekeLine

Guest
2domino
****************************************************
Нашел интересную статью на эту тему. Вообщем, системы интеллектуального распознавания чего-либо называются data mining а в нашем случае text mining. В статье разбирается основной принцип работы всех этих систем. Например, фильтр спама Bayest для мыши, как раз работает по такому принципу. Но там все не так просто. Короче писать что-то стоящее - устанешь, да я вряд ли получится, а пользоваться готовыми решениями - денег не хватит.{готовые решения как правило платны, стоят несколько десястков тысяч баков, и к тому же работают не ахти как}. Скороей всего придется прибегнуть к способу, который советуешь ты. Хоть и распознование будет трудно назвать интеллектуальным поскольку для того чтобы определить хотя бы например принадлежность к какой-либо теме знаний придется заносить слишком много данных. И то не факт что кпд будет хотя бы 10%. Но зато типа AI. Гы..
****************************************************


2Vallar_ultra
****************************************************
Попробую почитать, может чего и выйдет....
А вообще если у кого-ниубдь появилось желание попробовать свои силы в данной теме..милости просим всегда буду рад!
 

Vallar_ultra

Любитель выпить :)
2NekeLine

Я так думаю, что кпд будет меньше, чем 1% ... знаки припенания - это ещё не показатель! Если не верите, то можно посмотреть учебник русского языка за 8 класс :)

попробовать свои силы вполне можно....
Задачка одназанчно интересная и перспективная,вот только вопросов сразу много возникает:
1) Что сие предполагается быть за система в конечном итоге
2) Это коммерческий или free-проект
3) Насколько глубоким должен быть структурно-лингвистический анализ(есть кое-какие знания в области соц. психологии, по сему интересна глубина бурения данной темы :) )
4) Ну и всё связанное с вышесказанным.... :)

А так я вполне готов посидеть-подумать над данным предложением! :)
 

Necromant

Новичок
Семантика , языка ИМХО интреснее и полезнее , чем просто емоционаьная составляющая , гораздо более востребовано , выдрать , смысл изтекста , чем , то в каком настроении автор ее написал.
 

NekeLine

Guest
Vallar_ultra

1) Что сие предполагается быть за система в конечном итоге?
Хотелось бы написать робота...
2) Это коммерческий или free-проект
имхо сначала все проекты free. а дальше посмотрим :D. Если хоть кого-нибудь это заинтересует.:(
3) Насколько глубоким должен быть структурно-лингвистический анализ(есть кое-какие знания в области соц. психологии, по сему интересна глубина бурения данной темы )
имхо чем глубже тем лучше
но для начала сделать так чтобы...к примеру на рецепт приготовления чего-либо {простите кушать хоца :DD) ответ был кухня или ..еда...
*********************************************

Честно скажу что в этой теме я практически ноль...но как сказал Vallar_ultra
Задачка одназанчно интересная и перспективная,вот только вопросов сразу много возникает:

-~{}~ 21.08.05 16:44:

Автор оригинала: Necromant
Семантика , языка ИМХО интреснее и полезнее , чем просто емоционаьная составляющая , гораздо более востребовано , выдрать , смысл изтекста , чем , то в каком настроении автор ее написал.
Согласись что иногда эмоциональная состовляющая зачастую и обозначает смысл текста. Т.е. хочу сказать что одно и то же с разными эмоц. сост. имеет разный смысл..пример придумать не могу, но уверен что их много..
топик куда-то не туда пшел...скорей похоже на форум лингвистов и филологов...гы
 

Vallar_ultra

Любитель выпить :)
2NekeLine
Ну давай тогда более подробно опиши задачу(хотябы наброски ТЗ), я поговорю со знакомыми психологами, посмотрим чё они посоветуют и тогда можно будет что-нить обговаривать более конкретно...

ТЗ или его прототип мыль на [email protected] или в аську 236-049-205
 

domino

Новичок
Автор оригинала: Vallar_ultra
2domino
эмоцианальная окраска - это ОЧЕНЬ сложная вещь для анализа, и делить по знакам припинания - это чушь!
Читай внимательнее топик. - ему нужно знать вопросительное предложение или нет. Знак вопроса - это знак препинания.

-~{}~ 22.08.05 12:09:

Автор оригинала: NekeLine
2domino
****************************************************
Нашел интересную статью на эту тему. Вообщем, системы интеллектуального распознавания чего-либо называются data mining а в нашем случае text mining. В статье разбирается основной принцип работы всех этих систем. Например, фильтр спама Bayest для мыши, как раз работает по такому принципу. Но там все не так просто. Короче писать что-то стоящее - устанешь, да я вряд ли получится, а пользоваться готовыми решениями - денег не хватит.{готовые решения как правило платны, стоят несколько десястков тысяч баков, и к тому же работают не ахти как}. Скороей всего придется прибегнуть к способу, который советуешь ты. Хоть и распознование будет трудно назвать интеллектуальным поскольку для того чтобы определить хотя бы например принадлежность к какой-либо теме знаний придется заносить слишком много данных. И то не факт что кпд будет хотя бы 10%. Но зато типа AI. Гы..
****************************************************

В правилах форума написано, что если ты чего-то там нашёл по своей проблеме, то неплохо бы выложить урлы для других.
 

NekeLine

Guest
2 domino
****************************************************
http://www.kinnet.ru/cterra/518/30649.html

http://www.compression.ru/download/articles/classif/intro.html

А если очень сильно заинтересовался - Google
 

Libov

Guest
Я могу вам сказать, что построенные модели поведения, прекрасно, я лично, проверяю на крупных форумах, где много писателей и читателей...

Только один раз этот метод тестирования дал сбой.
Этот форум лидирует в мире, как форум имеющий громадное число клонов и ботов...Вот модели и начали конфликтовать друг с другом....Правда заодно и клонов вычислили :)
 
Сверху