Русская морфология

shikari

Новичок
1) Обязательно ли для корректной работы phpmorphy устанавливать локаль с помощью setlocale (utf8 или cp1251)?

2) Почему при установленой опции PHPMORPHY_STORAGE_MEM и использовании словаря в кодировке cp1251 новая версия стала потреблять в два раза больше памяти по сравнению со старой?
 

Жигaн

Новичок
serg45
Попробуйте закомментить строку с die в локальной версии, выскочит exception, вывод запостите сюда. спасибо.

shikari
1) Нет, не обязательно.
2) Словари стали жирнее в два раза. Не используй _MEM хранилище в вебе, оно пригодно только для cli скриптов. Для веба используй _SHM и\или _FILE.
 

pilot911

Новичок
нашел хороший скрипт для определения языка текста

http://www.phpclasses.org/browse/package/3166.html


всего 16 языков, в тч и русский
 

phprus

Moderator
Команда форума
pilot911
А ты не в курсе, как у этого скрипта с точностью определения языка?
 

Farsh

~ on ~ high ~ wave ~
Если не нужна скорость, то для определения можно использовать гугл. Думаю, что лучше него этого никто не сделает ;)
 

andreypaa

Новичок
Farsh
какм образом через гугл можно определить морфологические признаки?
 

pilot911

Новичок

Farsh

~ on ~ high ~ wave ~
pilot911
Эт официально, но ajax запрос = http запрос + дополнительный заголовок, говорящий о том, что это ajax. Глянь последнюю мою ссылку в предыдущем посте, подставь в параметр q текст на любом языке.
 

Farsh

~ on ~ high ~ wave ~
StUV
Дай примеры запросов, которые подаешь ;) Невозможно, например, точно определить язык слова, которые присутствует в разных языках ( например, "dog" ). Или из фразы, в которой одно слово en, другое ru.
 

StUV

Rotaredom
Farsh
похоже я тормознул - sw он определяет при отдаче строки в цп1251 (что тож странно, но...), в утф8 для тех же фраз - все ок =)
 

pilot911

Новичок
Автор оригинала: Farsh
pilot911
Эт официально, но ajax запрос = http запрос + дополнительный заголовок, говорящий о том, что это ajax. Глянь последнюю мою ссылку в предыдущем посте, подставь в параметр q текст на любом языке.
если запрашивается гугль - это это неавтономная реализация, к сожалению

-~{}~ 07.05.09 15:56:

друзья, а есть примеры скриптов, как в тексте определять веса предложений или абзацев, как это сделано тут при помощи phpmorphy


http://diff.biz.ua/keywords.php

здесь определяются веса не только ключевых слов, но и предложений

как это сделать ?
 

pilot911

Новичок
спасибо, может быть еще кто-то знает расписанные алгоритмы ?
 

shikari

Новичок
Автор оригинала: Жигaн
Словари стали жирнее в два раза.
За счет чего?

Автор оригинала: Жигaн
Не используй _MEM хранилище в вебе, оно пригодно только для cli скриптов. Для веба используй _SHM и\или _FILE.
На хостинге отсутствует shmop. _MEM хранилище использовал - вроде работает.
Почему его в вебе не следует использовать?

-~{}~ 09.05.09 13:10:

Русский словарь не знает слова "СРАЧ"
 

Жигaн

Новичок
shikari
Уф, это долго объяснять. В целом, причина в том, что я добавил дополнительные данные в словарь, что привело к его худшей сжимаемости. Я сейчас подумаю, что можно сделать.

На хостинге отсутствует shmop. _MEM хранилище использовал - вроде работает.
Почему его в вебе не следует использовать?
Для каждого запроса будем загружать ~8Mb данных (памяти может не хватить см. ini_get('memory_limit') ).

Русский словарь не знает слова "СРАЧ"
Слушай, у тебя есть корпус текстов с диалектной лексикой (сообщения форумов и т.п.)? Если дашь мне список неизвестных слов (т.е. с выключенным предсказанием), я добавлю их в словарь.
 

bask

Новичок
Из сборок исчез словарь с Ё - morphy-source-ru_RU.zip
Где его можно взять?
 
Сверху