Алгоритм работы с большим файлом базы данных

dimagradov · 6 Авг 2009

Алгоритм работы с большим файлом базы данных

Здравствуйте.
Есть сервер Centos 4 на нем PHP 4.3.9
Помогите усовершенствовать скрипт, который работает с большим файлом.
Есть очень большой текстовый файл, около двух гигов, в нем база данных в виде текста. Нужно как можно меньшими затратами для сервера и винта вытащить N-ю строку из этого большого файла.
1)Сначала, когда база данных не была большая, я просто загонял весь файл в массив и мог почти мгновенно выдать нужную строчку.
2)Затем, когда база данных стала разростаться просто добирался до нужно строчки через

PHP:

$fp=fopen('file.txt','r');
for($i=1;$i<=$NUM;$i++) $str=fgets($fp);

Где $NUM и есть нужная строчка. Но это было очень неудобно, т.к. файл огромный и по времени очень долго добраться до нужной строки, а нужно за раз вытащить 200-500 строчек
3) потом я написал таблицу позиций для каждой строки и стал через fseek переходить на нужное место в файл и считывать строчку. Делает конечно быстрее, но винт насилуется очень страшно.
4) была идея сделать под каждую строку файл и в нужный момент считывать нужный по номеру файл, но тогда мне нужно будет создать миллион строк, а это опять же насилование компа
Посоветуйте, как можно оптимизировать алгоритм считывания нужной строки? Возможно как-то оптимизировать файл?
Спасибо заранее за ответ

dimagolov · 6 Авг 2009

открой для себя базы данных

dimagradov · 6 Авг 2009

А какую бы вы базу данных посоветовали бы для конкретной задачи?
На сервере есть
mysql-4.1.22
sqlite-3.3.6
postgresql-7.4.19

zerkms · 6 Авг 2009

мне одному показалось, что человек разговаривает сам с собой?

))

dimagradov · 6 Авг 2009

Автор оригинала: zerkms
мне одному показалось, что человек разговаривает сам с собой? ))

zerkms
Если для вас смешно, что я файлы использую вместо базы данных, то мне смешно, что вы используете ос gentoo, где нужно собирать каждую прогу, вместо того, чтобы использовать уже готовые ОС
Относитесь к людям попроще, если они чего-то не знают, они не виноваты в этом. Мне нужно написать как можно быстрее скрипт и заниматься совершенно другими вещами. Да и все изучить просто невозможно.

nirex · 6 Авг 2009

postgresql только возьми версию по новее из 8-ки

Alexandre · 6 Авг 2009

для того чтоб использовать БД - надо еще суметь эти данные в БД запихнуть.
1) читаем литературу по БД, используем то, что установлено на сервере: mysql-4.1.22 или postgresql-7.4.19 Литературы в инете - разной навалом, но по MySQL - больше

2) пишем программу, которая перегонит данные из мега-файла в БД
- считываем файлы небольшими блоками и частями записываем в БД.

3) переделываем свою программу под работой с БД

nirex · 6 Авг 2009

Alexandre
перегнать данные можно при помощи тестового редактора и встроенного реплейсера с регулярками

zerkms · 6 Авг 2009

я намекал лишь на похожие ники, а ты какой-то нервный

dimagradov · 6 Авг 2009

Спасибо, ребята. с Базами данных я немного знаком, писал каталоги и простенькие проги на mysql. Но очень хотел обойтись без базы данных.
nirex Центос не дает обновлять версии прог, я бы давно php до 5-го обновил.
Alexandre спасибо, перегоню, интересно посмотрим не будет ли при этом винт насиловаться...

Я просто надеялся) что я тупой и можно только посредством php вызвать сразу нужную строчку, без насилия над винтом.
Тогда ссори, может действительно нернвый;

zerkms · 6 Авг 2009

dimagradov
не верю, что под центос нет свежих версий.

dimagradov · 6 Авг 2009

zerkms
У Центоса политика такая версии прог не меняются, только убираются глюки, этим он и удобен. В Пятом Центосе наверняка версия выше, только я не хочу обновлять сервер, т.к. он в штатах и за это нужно доплачивать.
Вот только я задумался, а как же я буду делать dump базы, ведь у меня этих текстовых файлов на 20 гигобайт...
Может кто-нибудь подскажет как без sql обойтись?

tf · 6 Авг 2009

Может кто-нибудь подскажет как без sql обойтись?

а зачем?

а как же я буду делать dump базы, ведь у меня этих текстовых файлов на 20 гигобайт...

напишеш прогу если стандартные не подходят

dimagolov · 6 Авг 2009

dimagradov, учи матчасть:
CentOS 4

[dimagolov@office ~]$ yum search mysql | grep server | grep i386
mysql-server.i386 4.1.22-2.el4 base
MySQL-server.i386 5.0.51a-0 installed

п.с. а собирать из исходников частенько и на центосе приходится...

dimagradov · 6 Авг 2009

dimagolov
Ну это понятно, что взяв src.rpm из того же 5-го центоса собрать можно и mysql5, только если обновление вышло, опять пересобирать? это же неудобно.
tf Не долюбливаю я эту mysql, в 4-й допускал ошибки, что mysql зависала, и не заканчивалась по таймауту. Но это уже субъективизм. попробую переписать скрипт под базу, сначала на рабочей станции, тут у меня федора и 5-я mysql)

dimagolov · 6 Авг 2009

dimagradov, кончай чушь пороть про ошибки и прочее. и скажи внятно что у тебя за система, для начала.

что выводит

PHP:

uname -a

?

HEm · 6 Авг 2009

фуф, а я думаю, чего это димаголов такие вопросы стал задавать, а это не он

Alexandre · 6 Авг 2009

перегнать данные можно при помощи тестового редактора и встроенного реплейсера с регулярками

не думаю что они справятся с файлом в пару гигов.

phprus · 6 Авг 2009

Alexandre
[на правах оффтопика]
sed - тоже текстовый редактор

[/на правах оффтопика]

zerkms · 6 Авг 2009

не думаю что они справятся с файлом в пару гигов.

EmEditor вполне откроет.

Алгоритм работы с большим файлом базы данных

Новичок

Новичок

Новичок

TDD infected

Новичок

Новичок

PHPПенсионер

Новичок

TDD infected

Новичок

TDD infected

Новичок

крылья рулят

Новичок

Новичок

Новичок

Сетевой бобер

PHPПенсионер

Moderator

TDD infected