проблема парсинга

AlexFree

Новичок
проблема парсинга

при обработке больших массивов текста (выборка частей текста) с помощью функций preg_match появилась непонятная проблема:

периодически текст сохраняется неправильно (при чем исходный текст - нормальный). Примеры:
1. "гони" сохраняется как "гон ab6 и"
2. "по горло" - "по fec горло"
3. "произношения" - "про 100 изношения"

Кто нибудь с этим сталкивался? из-за чего это может быть?
 

AlexFree

Новичок
а в чем же? есть один текстовый файл(большой). Из него с пом. preg_match выбирается некот. инфа и записывается в несколько файов. В исход. файле - все ок. А в записанных - с ошибками! Это только с определенными текст. файлами. С другими - нормально все.

PHP FAQ: Ничего не работает! Что делать???. Отладка и поиск ошибок в своем алгоритме. - читал я это уже 100 раз!
 

Profic

just Profic (PHP5 BetaTeam)
Хе-хе. Что-то это мне напоминает... наверное Transfer-Encoding: chunked. А вам? :)
 

SiMM

Новичок
> да, работаю )) Можете помочь?
Используй в запросе HTTP/1.0, а не HTTP/1.1
PS: а говорил - preg_match...
 

white phoenix

Новичок
AlexFree
- Доктор, когда я пью чай у меня болят глаза. Какой сорт зеленого чая Вы порекоммендуете?
- А Вы ложку из чашки вынимаете?
 

AlexFree

Новичок
SiMM
извиняюсь.. просто в силу неопытности думал, что сократил проблему для того, чтобы помогли быстрее.. извиняюсь..
А про сокеты не сказал, т.к. думал, что опять начнется "это нельзя обсуждать на форуме" и т.п.

Спасибо за внимание!

PS: сижу читаю RFC 2616, 2068
PPS: это к тому, чтобы вы не думали, что я бегу на форум за каждой мелочью - я сначала сам долго разбираюсь.
 

SiMM

Новичок
AlexFree, это к тому, что надо учиться локализовывать проблему - вывел бы ты аргумент preg_match - сам бы сразу нашёл, что в данные затесался мусор ещё до preg_match, и он, соответственно, тут не при чём. И на будущее - если что-то работает не так - всегда смотри, с тем ли это что-то работает. Если кажется (или действительно) всё ок - аргументы используемых функций НУЖНО приводить в форуме.
PS: ф дибаг отправляют не столько для того, чтобы его прочли в 101й раз, сколько для того, чтобы человек понял, что всё решается отладкой :)
 
Сверху