Темы для 3-й PHP-конференции - предварительная запись тем

Иван

Guest
Да, про CMF хорошо бы послушать.

Плюс, про CommerceML, и наверно, вообще интеграцию бухгалтерских систем и каталогов интернет-магазинов.
 

Rin

*
На форуме часто спрашивают про поиск (используя таблицы БД).
Могу выступить с докладом "Принципы построения поисковой машины с учётом ревалентности и морфологии, используя таблицы БД".
Уровень подготовки слушателей: php, mySQL -- выше среднего.

Я как раз дописываю эту штуку и результаты меня очень радуют.
Как сделаю -- сообщу дополнительно.
Качество поиска можно будет оценить на сайте
http://pgcms.com

Если качество поиска удовлетворит и народ пожелает узнать, как устроен механизм поиска на сайте, я готов принять участие в конференции.
 

tony2001

TeaM PHPClub
>Качество поиска можно будет оценить на сайте
>http://pgcms.com
это там, где редиректит на Яндекс?
поиск хороший, но я его где-то видел уже..
 

confguru

ExAdmin
Команда форума
Rin
Спасибо за предложение - такой доклад уже есть на конференции...
С удовольствием приглашаем на эту и докладчиком на следующую
конференцию(которая будет весной 2005 в Киеве)
-------------------------------------------------------------------------------------
Поиск на сайте средствами php, mysql и ispell:
выбор между возможностями, качеством и производительностью
Докладчик: Алексей Рыбак fisher
------------------------------------------------------------------------
Доклад посвящен обзору одного из популярных методов построения поисковой системы для небольших проектов на базе mysql и php. Будут затронуты следующие вопросы:
- словарный индекс: принципы хранения и поиска объектов
- морфология: наиболее распространённые словари, их форматы, правила словообразования, поиск базовой словоформы по произвольной форме для известных и неизвестных слов
- релевантность поиска: какими основными принципами можно ограничиться для небольших проектов
- производительность поиска: результаты ряда интересных тестов, обзор основных параметров, влияющих на эффективность индексирования и поиска
- неожиданное приложение: использование правил словообразования для автоматического склонения имен собственных в корпоративных информационных системах
- краткий обзор наиболее популярных продуктов
 

fisher

накатила суть
2Rin: где ж ты раньше был? теоретически можно скооперироваться и выступить вместе. просто тезисы, что ты тут указал на 100% соответсвуют моим :))) но щас программа уже почти утверждена, времени в обрез. а что скажет орг-комитет? меня не заломает скооперироваться. найди меня в icq#39206835. с орг-комитетом вечером свяжусь.
 

Rin

*
Мдя...
Хотел я увидеть отзывы о предыдущей конференции и задал в поиске этого форума "Отзывы о 2-й конференции" и получил вот это:
---
Системное сообщение
Поиск не был осуществлён, так как Вы задали для него слишком короткое условие: "о". Минимальное количество символов в запросе - 2. Введите более длинную строку для поиска
---

Минимальное ограничение 2 буквами -- это не правильно.
Мой запрос это показал.
Ну да ладно, оставим поиск в этом форуме в покое. Спасибо ему, что нашел документы просто по слову "конференция".
("Отзывы о 2-PHP-конференции")
Это было лирическое отступление и развивать тему не нужно.

Прочитав этот топик от начала до конца хочу согласиться с fisher'ом, что есть 2 типа докладов: "общеобразовательные" доклады, доклады по "частным весокотехнологичным решениям" (см. http://phpclub.ru/talk/showthread.php?s=&threadid=50253&perpage=20&highlight=конференция&pagenumber=2).

Например, доклад по написанию поисковой системы относится ко второму типу.
Непосредственно с PHP он имеет косвенную связь, т.к. рассматриваются алгоритмы и SQL запросы.

Хоть я и не был на предыдущей конференции, но хочу поделиться некоторыми мыслями.
1) Каждый доклад было бы неплохо отнести к тому или иному типу. В начале читать группу докладов "общеобразовательного" типа (это интересно новичкам), затем "частные" доклады (которые интересны профессионалам).
2) Я не раз бывал на всяких конференциях, в регламент почти никто не укладывается, это нормально. Просто для каждого выступающего нужно держать + 10-15 минут для "запланированного" превышения. Время для ответов на вопросы 10 минут. Остальные вопросы после выступления докладчиков, что бы не задерживать других.
3) Сопроводительные материалы (с текстами, тезизами, схемами, примерами SQL, PHP кода от докладов) лучше раздать _до_ конференции в момент регистрации. В процессе выступления докладчика это даст возможность лучше ориентироваться и понимать материал.
4) На общение после выступления докладчиков нужно выделить 2-3 часа. Это важно. После докладов формируются группы по интересам -- люди сами "кучкуются" :) Здесь можно задавать вопросы и отвечать на них, обмениваться опытом.
5) Чай, кофе и прочие плюшки приветствую

Извиняюсь, что несколько отошел от темы, но в теме "Отзывы о 2-PHP-конференции" пишут только участники, а поделиться с организаторами своими мыслями очень хотелось.

Для fisher:
Я то же не против выступить вместе.
Вот только выложу свой поисковый механизм для всеобщего обозрения.
Написать хороший и быстрый поисковик - это непросто. Очень хотелось бы отзывы получить, прежде, чем с докладом выступать.
Если алгоритмы и подходы к поиску окажутся разными, будет вдвойне приятно. Будет из чего выбирать.
Кстати, где можно оценить сделанный тобой поиск?
Когда ориентировочно конференция будет, я успею?
 

fixxxer

К.О.
Партнер клуба
Мдя...
Хотел я увидеть отзывы о предыдущей конференции и задал в поиске этого форума "Отзывы о 2-й конференции" и получил вот это:
---
Системное сообщение
Поиск не был осуществлён, так как Вы задали для него слишком короткое условие: "о". Минимальное количество символов в запросе - 2. Введите более длинную строку для поиска
---

Минимальное ограничение 2 буквами -- это не правильно.
Мой запрос это показал.
Что-то не нравится мне этот товарищ. Похоже, очередной малолетний выпендрежник.
 

fisher

накатила суть
2fixxer: ну, не суди - не судим будешь... человек новый, это в-целом нормально.
2Rin: всё это хорошо, но по делу мы пока так и не поговорили. времени просто уже нет, тк программа утверждена, поэтому вероятность сделать что-то совместно близка к нулю. близка к , но не равна. так что если по-прежнему есть желание пообщаться _по_делу_ - велкам. чем раньше - тем лучше.
 

Rin

*
Из общения с fisher'ом по ICQ стало ясно, что подходы к поиску различаются в части морфологии. Полагаю, и мне было бы что рассказать интересного на конференции. :)
Вобщем программа уже утверждена, так что в следующий раз, если пригласят.

А пока, как и обещал, вот временная ссылка для тестирования моей поисковой машины:
http://pgcms.com/search/?text=%EF%EE%E8%F1%EA%EE%E2%E0%FF+%F1%E8%F1%F2%E5%EC%E0
Можно издеваться по полной программе и попробовать свалить её в даун.

Бенчмарки прилагаются прямо в real-time. Если интересно узнать полное время генерации страницы, нужно написать скрипт, который притворится браузером и посмотреть на HTTP заголовки ответа сервера.
 

fixxxer

К.О.
Партнер клуба
Ага, уже лучше. ;) Но понты все таки не надо свои демонстрировать. Конечно, если хочешь к себе серьезного отношения. Встречают, как говорится, по одежке. Это так, бесплатный совет.
 

Rin

*
Не сердись, fixxxer!
Это не понты, а публичное тестирование технологии! :)
 

fisher

накатила суть
так-с...
попробуйте ввести туда что-нибудь типа
"вот и на чтобы если которого когда не и должно можно"
я ответа не дождался (честно ждал 2 минуты) ;)
ещё вопрос: какой объем индексированных текстов?
 

Rin

*
"Ну запросы у вас!", -- сказала БД и повисла... :)
пришлось убить тот процесс в БД и сделать ограничение на максимум 8 слов. Это хороший синтетический тестовый запрос, но в действительности пользователи по запросам, подобным этому, не ищут. Но работать он должен так же быстро, как и остальные, с этим я согласен.
Будем модернизировать запрос ...

Объём индексированных текстов на сайте -- 11900 слов.
Мизер конечно, но все данные на живом сайте, поэтому там нет тысячи тестовых документов.
 

fisher

накатила суть
>> по запросам, подобным этому, не ищут
ага. как же ;)
продолжаем игры: "и не и не и не". опять честно ждал 2 минуты, бросил.
пардон, понятие "стоп-слова" Вам говорит о чем-нибудь?

>>11900 слов
имхо это _очень_ мало. это даже не сотни тысяч. я тестирую на 5-ти миллионах и считаю такое количество небольшим проектом.
 

Rin

*
Если исключать из поиска стоп-слова, то никогда не найдутся фразы типа "быть или не быть".
Я ориентируюсь на Яндекс, который по ним прекрасно ищет, и правильно делает.

На 5 миллионах я обязательно потестирую, будет время.
 

fisher

накатила суть
Давайте я попробую тряхнуть стариной и сделать оценки из так называемых "общих физических соображений"? Я не уверен, что я при этом не потеряю какой-нибудь порядок и допускаю, что сделаю неверные допущения - но тем не менее, расценивайте это как шутку, в которой есть доля правды (или наоборот ;) ). Итак, вместо "и" и "не" на большом наборе текстов найдутся другие слова, встретившиеся столь же много раз, сколько встречаются "и" и "не" на наборе в 11900 слов. Из общих соображений с ростом базы скорость поисковика увеличиться не может. Попробуем грубо оценить предел размера базы, на котором этот поиск вообще может искать, а не уходить в даун при любом запросе. Среднее отношение употребимости "и" или "не" к какому-то популярному слову (но не явному "стоп-слову") принимаем за 2 порядка - 100. умножая 20000 на 100 получаем 2 млн слов. и это ещё без учета фактора скорости (из общих же соображений предположим, что она падает как NlogN /* а это очень оптимистично */, разница для N=20 тыс и N=2 млн составляет 2 порядка). лень писать школьные уравнения, но ясно, что 2 млн - сильно завышенная оценка, на порядок где-то. итого - двести тысяч. если длина документа - 1000 слов, то это - 200 документов.

>>ориентируюсь на Яндекс
а я вот не ориентируюсь, и никому не советую. Quod licet jovi, non licet bovi

update: ошибся в двух местах, но ошибки друг друга скомпенсировали и не изменили конечный результат :)
 

Rin

*
Конечно, предполагать можно все что угодно и теоретически высчитывать пределы, но кто сказал, что зависимоcть линейная и/или логарифмическая? Отнюдь.
Скорость зависит от очень многих факторов, в том числе и от расстояния между словами в тексте. Отталкиваться от "употребимости "и" или "не" к какому-то популярному слову" ложно. Что бы вычислять пределы, нужно знать все исходные данные и условия (в том числе условия, накладываемые алгоритмом поиска по индексу в тяжелом SQL запросе). Так как и тех, и других много, -- это пахнет линейным программированием тов. Кантаровича, что само по себе сложно. Это не простая задача, т.к. условий накладывается очень много (+ сами условия ещё нужно вычислить, например, популярность слов в тексте из расчёта, скажем, на 100000). Даже в случае его правильного составления (что маловероятно) нет гарантии того, что какая-нибудь программа типа Excel его быстро посчитает.

Поэтому лучший способ -- проверить работоспособность и скорость на практике тестами. :)

>а я вот не ориентируюсь, и никому не советую.

это почему же? яндекс плохо ищет по стоп-словам?
или по ним искать не следует? :)
 
Сверху