Крутой поисковик!!!

Silent

Новичок
Если это про массивы, то я выложил свои тесты в другом топике.
 

sapenov

Guest
для тех, кому лень искать даю ссылку

http://phpclub.net/talk/showthread.php?s=&threadid=26145&rand=3
 

PartizaneN

I speak PHP
>Я ведь ищу не в тексте, а в индексе. Это две большие разницы.
А ваще бывают такие кто ищет не в индексе? Насчет массивов ваще какая-то борода....!!! Нормально они работают... Что не попрошу у них, все делают... И заявление о кривости массивов не может быть ничем обосновано...!!!
 

Silent

Новичок
> Засовываю все файлы на сервере в ИНДЕКС по строкам - 1 строка - 1 файл... причем строка выглядит примерно так. урл||заглавие||сам текст||размер.

Это не индекс. Это текст. Тот факт, что ты все файлы свалил в одну кучу, не делает этот файл инвертированным индексом.

А про кривость массивов уже все выяснили, кривость наблюдается только на моей локальной машине, очень избирательно, никто другой пока ничего подобного не видел:)
 

PartizaneN

I speak PHP
2 Silent Это полюбому индекс.... Индекс- это упорядоченные данные.... У меня они упорядочены... Другое дело, что он может быть лучше(намного)... Мой алгоритм выглядет слудующим образом...
1. засовываю файл в массив.
2. ищу на каких страницах есть слова, кот мы ищем1(preg_match_all()). Запоминаю номера этих страниц(строк).
3. обрабатываю лишь эти страницы(строки)...
Все это очень быстро работает.
 

zubov

Guest
Вобщем писали мы как-то аналог спайлога, ну тобишь каунтер+реалтайм рейтинговая система+отчетики там всякие,
так вот для этого дела нам потребовался поисковый движок по сайтам зарегистрированным в системе. на пхп был написан спайдер который шмонает все сайты постепенно и складывает его обработанный контент, а потом просто поиск по БД MySQL.
 

Yurik

/dev/null
Спустить лошадь к воде просто, но вот когда Вы научите её плавать на спине - это настоящее геройство.
(Британский фольклор)
 

Silent

Новичок
Тема, похоже, себя исчерпала... Каждый остался при своем мнении и все пошли пить пиво:))

По поводу морфологии. Где ее можно "скачать" не знаю. Ее надо делать или покупать. Для того чтобы делать надо пару часов побродить в Яндексе по словам "морфологический анализатор" и "Зализняк". Потом много думать. Потом писать. Для начала можно взять словать Лебедева для испелла, у него есть свои недостатки, но конечный результат будет получен _гораздо_ быстрее.

Когда-то давно на этом форуме один человек предлагал морфологию на ПХП на основе испелла (правда довольно глючную и медленную), но модераторы это дело быстро пресекли:) Поэтому свой модуль предлагать не буду:)
 

Silent

Новичок
Угу... Неприлично напоминать об этом в этом топике, но есть такая вещь как поисковики. Ключевое слово "ispell". В Гугле тебя первой ссылкой пошлют на главную страницу, а второй ссылкой на страницу со словарями, выбираешь русский от Лебедева и... (Зализняк тоже в сети есть, в разных вариантах, но с ним проблем на порядок больше, потому как правил в явном виде нет).
 

Gray

Guest
Можно неспециалисту вмешаться в спор? Дело в том, что два неверных утверждения мне на глаза успели попасться.
1. Морфология - это главная часть поисковика.
Это не так. Учет словоформ - вещь не настолько необходимая для поисковика, как это кажется. Живет же Google без морфологии и неплохо себя чувствует.
2. Морфологический анализатор невозможно найти в Инете.
Тоже не так. Есть такой сайт - http://linguist.nm.ru - его автор - Андрей Коваленко, - предлагает и анализаторы, и словари. Именно его наработки использовались в Апорте при его запуске, сейчас используются в Meta-Ukraine и Рамблере. Собственно, он и сейчас один из ведущих разработчиков в Рамблере. Демо-версии доступны бесплатно.
 

PartizaneN

I speak PHP
2 gray Был я там... Что-то мне не очень понравилось... А морфология на поиске по сайту вещь приятная...
2 алл Я тут подумал... А может просто окончания обрезать... И не мучаться...
 

PartizaneN

I speak PHP
Итак........... Вот и наступила премьера моего поисковика...... В нем отсутствуют конечно всякие навороты, зато работает более-менее стабильно...... Да и код оптимизировал как мог... http://rockby.net
 

etc

Guest
писать поиск для сайта это извращение и никчемная трата времени - поверь - ставь mnogosearch!
 

PartizaneN

I speak PHP
2 etc - поздно... Не соглашусь конечно с никчемной тратой времени... Не могу ведь я своим клиентам за определенное количество у.е. предлагать поставить многосеарч...:) С таким же успехом можно и программировать перестать, наверняка кто-то уже все твои проги переписал... И работают они быстрее...
2 slach шутник...:)
 

buddy2002

Guest
ну хорошо, а как узнать что произошло изменение контента чтоб проиндексировать страницу?
 

PartizaneN

I speak PHP
Можно, например, загнать в индекс и размер индексируемого файла... И каждый раз при индексации сравнивать размер, записанный в индексе, с размером файла...
 
Сверху