страницу в массив слов

asm

Пофигист
страницу в массив слов

Есть HTML нужно из него получить массив слов.

Как делалось:
PHP:
        $filename = "http://".$row['url'];
        $contents = file ($filename);
        $str = '';
        for ($i=0; $i<count($contents); $i++) {
            $contents[$i] = strip_tags ($contents[$i]);
            $contents[$i] = trim ($contents[$i]);
            if (strlen($contents[$i])>0) {
                $str .= " ".$contents[$i];
            }
        }
        $words = explode(" ", $str);
получилось что иногда слова склеиваются.
Есть идеи как сделать без регулярных?
 

vladax

Новичок
вообщем, насчет без регов не знаю, но я бы сначала заменил все открывающие теги на пробел, а потом бы применил strip_tags. вот тебе и счастье.
 

Cougar

Кошак
Какая чудовищная конструкция...

PHP:
//этого вполне достаточно
$words = explode(" ", implode(" ", $contents)); 
// А ещё лучше это:
$words = preg_split("/\s+/", implode(" ", $contents));
А склеиваются - патамушта.
Например:
Код:
Строка первая<br>строка вторая
Как думаешь, что полуится после strip_tags() ?
 
А затем что с: раз,два,три не прокатит.
таких вариантов которые будут подходить под определение "не прокатит" масса!

[бред вырезан]

и когда я это все писал, забыл о том что есть \b
 

_RVK_

Новичок
nofx
Вопрос только "нафига?" если есть реги а в них паттерн \b - граница слова.
 

_RVK_

Новичок
На этот счет интересно было бы послушать автора топика. Может у него жуткая аллргия на реги, тогда да. Но делать 8 строчками то что можно сделать двумя лично я не вижу смысла.

-~{}~ 28.12.04 18:55:

именно для этого
Не понял. Для чего?
 

_RVK_

Новичок
nofx
Это, типа, "Спасибо, _RVK_, что просветил"? Да не за что! :)
 

asm

Пофигист
Регами не спрашиваю как потому что могу и сам сделать, просто интересно было узнать можно ли как иначе и проще
Сенкс всем.
 
Сверху