Алиса в стране чудес иль песнь о трёктильном такте

Роберт

Аналитик
А мой первый же тест окончился неудачей.
Я не нашёл ожидаемого слова в списке результатов.
Зашёл на сайт http://phpmorphy.h18.ru/demo.php
Прочитал там прекрасное стихотворение про "хливких шорек"
и решил ввести это самое слово "шорьки" чтобы посмотреть что можно про него узнать?
Дальше пару строк субъективно:
когда читаю:
"Хливкие шорьки пырялись по наве."
образно представляю
"Весёлые девчонки катались по Неве."
из чего делаю вывод что "шорьки" - это существа женского пола , а значит в единственном числе будет "шорька".
Программа же выдала что нормальная форма "шорек"
Ну собственно претензий никаких нету , ведь может быть и мужской род.
если Шорёк , то множественное число - Шорьки
если Шорька , то множественное число - Шорьки (разница только в ударении)
Тем более слово "шорька" присутствует в разделе "все формы".
Однако не нашёл слова "шорькой" (доволен кем/чем - Шорькой).
:(
 

Сергей Тарасов

Профессор
Роберт

На выходных обработал несколько сотен килобайт текста. Пока претензий никаких.

Жигaн

Отличная, либа. Единственное, что мне не хватат до полного счастья, это

1) UTF-8
2) Возможность получить часть речи для входного слова в "один вызов"

На скорость не тестировал.
 

Роберт

Аналитик
Сергей Тарасов
А что значит - "обработал несколько сотен килобайт текста"?
Вот у меня первое же опробованное слово имеющееся на сайте автора выявило наличие проблемы. Разве нет?
 

Сергей Тарасов

Профессор
Роберт

Честно говоря, слово ШОРЕК меня как-то совершенно не интересовало. :) Производился анализ реально существующих в русском языке слов.

Если ты такой принципиальный, то AOT выдал мне вполне нормальный творительный падеж:

ед. ШОРЬКОМ тв
ед. ШОРЬКАМИ тв
 

Роберт

Аналитик
Сергей Тарасов
Я говорил о слове шорька ед,им (которое образовывается от "шорьки") и для которого творительный падеж отсутствует.

Поэтому очень интересно что значит - "обработал несколько сотен килобайт текста"?
 

Сергей Тарасов

Профессор
Роберт

Слово шорька ед,им отсутствует в русском языке, равно как и "шорек".

Для слова ШОРЕК, как я понимаю, производится предсказание по аналогии с "УГОРЕК". Соответственно:


СУЩЕСТВИТЕЛЬНОЕ мр,
ед
ШОРЕК им
ШОРЬКА рд
ШОРЬКУ дт
ШОРЕК вн
ШОРЬКОМ тв
ШОРЬКЕ пр
мн
ШОРЬКИ им
ШОРЬКОВ рд
ШОРЬКАМ дт
ШОРЬКИ вн
ШОРЬКАМИ тв
ШОРЬКАХ пр


>Поэтому очень интересно что значит - "обработал несколько сотен килобайт текста"?

Ну собственно и значит, что обработал несколько сотен килобайт.
Если интересует тематика корпуса - общественно-политическая (новости).

Нужно было определение нормльной формы и части речи (пока :))
Претензий нет.
 

Роберт

Аналитик
Сергей Тарасов
Я тебе сказал что считаю проблемой неопределившееся слово "шорька" , а ты мне опять про свой "шорек" , да ещё и по падежам просклонял зачем-то.
В повседневной речи мы используем огромное количество слов отсутствующих в русском языке. Например: фотик , мобилка. Но наравне с "шорька" и "шорёк" они могут жить. Потому что подчиняются правилам русского языка и не режа слух свободно склоняются любым из нас.
Так что я считаю что проблема есть , так как находятся не все формы слова.
Что же касается того как ты обработал несколько сотен килобайт - то я понимаю что обработав скажем 6 сотен килобайт текста. При средней длине слов в 6 символов это означает что ты обработал ровно 100 000 слов. Запустив программу ты получил где-то 115 000 словообразующих форм (так как многие слова имеют по несколько образующих форм , например для "пили" это "пилить" и "пить") и затем вдумчиво прочитал каждое из них , сравнивая соответствие к контекстом , и убедился что ни одно не пропущено. Так сделал? Или просто запустил проверку для каждого слова и факт того что на вводимое слово что-то выдавалось - для тебя уже являлось аргументом сказать что претензий нет?
А то что для "шорьки" небыло выдано "шорька" или предположим на слово "фотики" он выдал "фотика" (С жр, ед, им) - тебе показалось совершенно нормальным и не вызывающим претензий.

baev
Тут ты немного не правильно сказал. Вместо - "не всем довелось читать Кэрролла" , более правильно было бы сказать "не всем довелось читать перевод Кэрролла". Ибо это не просто рассказ который можно перевести сохраняя смысл. Здесь большее значение имеет комбинация слов. Там где в оригинале было написано про кирпичи , в переводе говорилось о бабочках...
Признаюсь честно , я не читал этого произведения. Но я слышал восторженный рассказ своего друга прочитавшего рассказ на оригинальном языке , и более получаса рассказывающего мне о том , что русский перевод не несёт даже половины того что есть в оригинале. Хотя в конце признался что , хоть и живёт в штатах уже более 3 лет , некоторые "шутки" так и не понял.

Да и собственно говоря - не важно откуда стишок. Есть много подобных. Вот например про Глокую куздру

-~{}~ 30.03.08 22:49:

Кстати , baev , если вы заметили , мы с Сергеем говорим об одном и том же слове только разного рода (я недоволен отсутсвием словоформ женской основы , а Сергей приводит в пример слово мужского рода и считает что этого достаточно). Фрагмент который вы привели - ни как не мог бы послужить для кого-то из нас аргументом в его пользу , так как Кэрролл писал на английском , где нету понятия женский или мужской род :)
 

baev

‹°°¬•
Команда форума
Кэрролл писал на английском , где нету понятия женский или мужской род
— что за бред?

И при чём тут, вообще, английский, если речь идёт о русском языке и о тексте на русском языке? Принято в русском фольклоре, что лиса — женского рода, а хорёк — мужского.
Я цитату привёл в том числе и для того, чтобы ассоциация с «хорьками» более «наглядной» была, но, видимо, зря...

я недоволен отсутсвием словоформ женской основы
— если Вы заметили, в цитате четверостишие приведено полностью.
Лично для меня множественное число от слова «шОрька» женского рода может иметь ударение только «шОрьки», а тогда в стихотворении рифма явно сбивается.
Так что: в русскоязычной литературе есть «шорькИ» только мужского рода.
 

Роберт

Аналитик
Жигaн
> Можно выдавать максимальное количество интерпретаций...
Лично я считал что если слово неизвестное - то там просто обязаны рассматриваться все возможные варианты. Ведь встречая неизвестное слово (ну скажем - "мируры") ты никогда не знаешь это было мирура или мирур. Твой продукт каждый будет затачивать под свои цели. Лично я сразу представил поисковик по форуму. И то что программа встретив незнакомое слово (а в современном молодёжном форуме каждое пятое слово будет не словарное!) останавливается только на мужском роде - сразуже оставляет за чертой посика 50% информации. Хотя может конечно и меньше чем 50% ведь в некоторых падежах слова пересекаются , но и прилогательно с его формами не нашлось , так что может быть и больше 50%.

baev
> чтобы ассоциация с «хорьками» более «наглядной»
А почему с хорьками а не с ящерицами? Ящерица женского рода...

> а тогда в стихотворении рифма явно сбивается.
рифма сбивается если ты во второй строке нарочно оставляешь ударение так будто в первой строке слово мужского рода.
Это как:
мАла - дАла
и
малА - далА
для стихотворения подхотят оба варианта и рифма есть в обоих вариантах. Тем более если оба слова не существующие. Но то что ты заговорил сейчас о соответсвтии ударении и рифме выглядит будто ты хочешь мне сейчас доказать что программа определила принадлежность слова к мужскому роду оценив рифму стиха и расставив ударения. Хотя отлично понимаешь что это не так , и твой пример - простое сотрясание воздуха
 

Wicked

Новичок
Роберт
для стихотворения подхотят оба варианта и рифма есть в обоих вариантах.
если даже допустить возможность аналогии между шорьками и ящерицами (хотя хорьки явно на порядок вероятнее), то уж 'А "_зелюки_" это зеленые индюки!' все расставляет на свои места. Давай не будем разводить демагогию.
 

baev

‹°°¬•
Команда форума
рифма сбивается если ты во второй строке нарочно оставляешь ударение так будто в первой строке слово мужского рода
— нет.
Вторая строка тут совершенно ни при чём.
Когда «шорькИ» и «зелюкИ» — всё нормально.
А когда «шОрьки» — сразу стих становится прозой.


Но то что ты заговорил сейчас о соответсвтии ударении и рифме выглядит будто ты хочешь мне сейчас доказать что программа определила принадлежность слова к мужскому роду оценив рифму стиха и расставив ударения
— не-а.
Просто, если бы Вы удосужились сначала найти первоисточник, у Вас и вопроса по поводу мужского/женского рода не возникло бы.
 

Роберт

Аналитик
Wicked
> "_зелюки_" это зеленые индюки
А рыба "краснопёрка" - это "красное перо" , так что составленное из нескольких слов новое слово НЕ обязательно будет перенимать род первоначального слова.

> Давай не будем разводить демагогию.
Я считаю демагогией попытку утверждать что программа правильно определила исходное слово в данном стихотвориении , на основе ударений третих строк. Хотя даже автор программы подтвердил что проблема есть.

baev
> А когда «шОрьки» — сразу стих становится прозой.
Стих стал прозой уже после первого же слова - "Варкалось."
Или ты можешь определить его тип? Это ямб , хорей , дактиль , анапест , амфибрахий или может быть что-то другое?

> если бы Вы удосужились сначала найти первоисточник
Как я уже говорил раньше - первоисточник на английском. А в английском нету понятий женского и мужского рода. Сдесь же вольный перевод...
 

baev

‹°°¬•
Команда форума
А в английском нету понятий женского и мужского рода.
— ещё раз повторяю: хватит бредить.

Как я уже говорил раньше - первоисточник на английском.
— ещё раз: при чём тут английский? Речь идёт о русской морфологии. И Вы из контекста именно русскую строку вырвали — просто потому, что не знали, откуда она взята. Вот этот самый «контекст» и есть в данном случае «первоисточник».

Или ты можешь определить его тип?
— трёхиктный дольник, если не ошибаюсь.

Да, для ясности: моё замечание к работоспособности кода не имеет никакого отношения.
Речь только о том, что, по моему мнению, у человека знакомого с «первоисточником» вопроса о роде этого существительного просто возникнуть не могло.
 

Роберт

Аналитик
baev
> у человека знакомого с «первоисточником» вопроса о роде
> этого существительного просто возникнуть не могло.
Если ты считаешь что род слов можно опредилить по описаниям данным Шалтаем - то последнее слово в строке "Как мюмзики в мове" у него описано как "дом". Слово мужского рода. Значит начальное слово "мов" , и следовательно - "Как мюмзики в мОве"!!! Гдеж тогда трёхиктный дольник?
 

baev

‹°°¬•
Команда форума
Роберт, я считаю, что у человека, для которого русский язык — родной (или — один из родных), вопроса бы просто не возникло и без объяснений Шалтая-Болтая.
Хватило бы самого стихотворения (оно полностью — ближе к началу произведения).
И, вообще, я сразу написал про объяснение Шалтая: «для того, чтобы ассоциация с «хорьками» более «наглядной» была, но, видимо, зря...»
Так что эту «зряшность» можете дальше не доказывать.

Гдеж тогда трёхиктный дольник?
— между прочим, от переноса ударения ничего не меняется: просто Вы не знаете, что такое «трёхиктный дольник».
(Кстати, тут скорее не дольник, а тактовик...)
 

Роберт

Аналитик
baev
> Так что эту «зряшность» можете дальше не доказывать.
Как только увидели что ваша теория рухнула - сразу в кусты?

> Кстати, тут скорее не дольник, а тактовик...
Если использовать вашу же теорию о том что шорьки=хорьки (а следовательно - мов=дом) - то никакого такта (тактовика) уже нету.
 

baev

‹°°¬•
Команда форума
Как только увидели что ваша теория рухнула - сразу в кусты?
— не выдавайте желаемое за действительное.

Во-первых, про «зря» я сразу написал.
Во-вторых, единственная выдвинутая мною «теория» — это то, что из полного четверостишия однозначно видно, что «шорьки» — мужского рода. И следует это не из выдуманных Вами параллелей, а из ритмики стиха. И об этом я в первом же пояснении написал.
Всё остальное — целиком плод Вашего воображения.
 

baev

‹°°¬•
Команда форума
Wicked, а можно всех этих «шорьков» в мусор отделить? Они только топик засоряют...
 
Сверху