Теоретический вопрос про поиск по сайту

codex

Новичок
Теоретический вопрос про поиск по сайту

Есть движок с кучей модулей, есть задача сделать поиск по всему сайту, включая форум, блог, опросы и так далее. Есть идея написать индексатор, который будет индексировать сайт на манер поисковых роботов и пихать данные в базу/файл. Сам поиск будет производиться по индексной базе/файлу. Заслуживает ли идея реализации? Не откажусь от советов от опытных товарищей.
 

VBart

Новичок
В таком случае проще имхо взять готовый. Тот же Яндекс.SITE
 

kruglov

Новичок
codex
Вот я не советуясь с товарищами взял и сделал такой.
 

codex

Новичок
kruglov И как? Меня больше всего волнует вопрос быстродействия робота и трафик.
 

Andreika

"PHP for nubies" reader
codex
тут еще вопрос философский возникает - должен ли следовать поисковый робот твоего сайта следовать содержимому файла robots.txt твоего сайта? :)
 

codex

Новичок
Andreika
Да легко :)

Я вот мучаюсь вопросом, трафик через file_get_contents в пределах сервера засчитывается провайдером как входящий или нет? :)
 

codex

Новичок
Andreika
Да мне проще тут спросить, чем прову объяснять чего я хочу.
 

kruglov

Новичок
codex
Да уж конечно проще. Прям мы тут все знакомы с вашим провом и знаем, как и что он там вам засчитывает.
 

codex

Новичок
kruglov

Раз вы такой умный, парите над головами лохов позорных, может скажите чего по теме? Или только высказывать своё превосходство умеете? Такое ощущение, что форум создан для нескольких особо одарённых товарищей для издёвок над идиотами-чайниками, которые здесь свои тупые вопросы задают.
 

codex

Новичок
Нечто

За что стыдно? За то, что я вопрос задал?:) Да, мне проще спросить тут, в уже созданной теме, чем писать длинное письмо провайдеру и пускаться с ним в долгие разъяснения. Разве вопрос требует ответа? Найдутся люди, которые этой темой интересовались, ответят - отлично, сэкономленное время. Не ответит никто - буду писать провайдеру.

По теме. Спасибо за ссылку, но я собираюсь сам писать поисковик. Мне, собственно, не так много надо. Всего лишь мнение людей, которые писали подобную штуку и наткнулись на какие-либо подводные камни (трафик тот же, чрезмерное время индексации при использовании file_get_contents).
 

Develar

Новичок
codex
смотри статью в 7 phpinside и учись пользоваться поиском и уважать собеседников. Если тебе нужен поисковик не только по твоей CMS, но и по сторонним разработкам - используй mnogosearch и не трать время на изобретение велосипеда.
 

kruglov

Новичок
codex
Ваш вопрос о траффике и провайдере напоминает анекдот о человеке, который искал ключи не у забора, где потерял, а под фонарем, где светлее.

Как я уже упоминал, я такой поисковик писал, на подводные камни... Нуу, можно считать, не натыкался. Легче вам стало?

Траффик? Цена вопроса такова, что не стоит о нем задумываться.
Время? Поставьте переиндексацию на 3 часа ночи. За час-два уж управится, наверное?
 

Алексей

Новичок
решено, будем писать поиск по сайту свой, а не использовать всякие готовые скрипты от Яндекса и тому подобных. благодаря этому решается куча проблем (например определение урла страницы с искомыми словами). да и то что движок написан полностью с нуля, то и дописать поискового бота с простеньким интерфейсом будет не так сложно, чем доводить до совершенства чужую работу. и robots.txt тоже вряд ли понадобится обрабатывать - лучше предусмотреть это в интерфейсе админки поиска перед запуском индексации

не понимаю почему некоторые так накинулись на
- он просто вынес на обсуждение проблему, которую предстоит решить, и высказал свои мысли, чтобы знающие люди подсказали возможные пути решения или помогли ценными советами
 

kruglov

Новичок
Алексей
Накинулись на него потому, что он У НАС спрашивает, как тарифицирует обращения сайта к самому себе ЕГО ПРОВАЙДЕР.
 
Сверху