Архитектура нагруженного поисковика

phprus

Moderator
Команда форума
WP
Чтобы ты понял, что 700,000,000 веб страниц на одном сервере на sphinx это не реально, то надо перейти от количества документов к к их размеру.

700,000,000 вебстраниц (в серднем по 20 кб текста на каждой) - это примерно 13 терабайт (на одном сервере такой объем не разместить).

А 700,000,000 форумных сообщений (средний размер менее килобайта) это менее 652 гигабайт, а такой объем на одном сервере проиндексировать в принципе реально.
 

WP

^_^
phprus
А какая разница один или несколько.
> на одном сервере такой объем не разместить
Есть внешние райд-массивы
 

fixxxer

К.О.
Партнер клуба
> А какая разница один или несколько.

:)

ну вот у тебя есть несколько mysql серверов.
каким образом ты разбиваешь по ним данные?
каким образом их агрегируешь?

вот я ищу фразу "разведение сусликов в условиях субтропического климата", допустим. и хочу видеть релевантную выдачу.
 

phprus

Moderator
Команда форума
WP
Есть внешние райд-массивы
Даже если ты и засунешь эти 13 терабайт на один сервер с использованием райд-массивом, то поиск по такому индексу у тебя будет измеряться десятками минут (если ни часами).

При таких объемах данные надо размещать на разных серверах и чтобы при поиске тоже использовался более чем 1 сервер.

По этому 3 вопроса написанные fixxxerом являются очень важными.
 
Сверху