Проблемы с юникодом при обработке регулярными выражениями

Opik · 9 Июл 2007

Проблемы с юникодом при обработке регулярными выражениями

Есть задача проверить строку на содержание русского/латинского алфавита, т.е строка должна быть либо в одном алфавите, либо в другом:

PHP:

	if(preg_match("/[^a-zA_Zа-яА-Я0-9-_\s]/U", $string))
 	{
 		print "bad";
 	}
 	else
 	{
                print "good";
 	}

Латинский алфавит проходит нормально, кириллица же ругается (bad), проблем до перехода на UTF не было.
P.S ФАК смотрел, модификатор u пробовал.

WP · 9 Июл 2007

Не понял, т.е. либо должна быть латиница и не должно быть кириллицы, либо наоборот?
Я бы решил эту задачку двумя вызовами preg_match либо если набор остальных символов ограничен - одной с альтернативой в виде двух выражений.

Opik · 10 Июл 2007

WP
Да, вы правильно все поняли, пробовал и двумя preg_match, но при проверке на латиницу (вводя русские буквы) откуда то идет совпадение - т.е получается аналогичная ситуация

phprus · 10 Июл 2007

Opik

откуда то идет совпадение

Совпадение идет из-за неиспользования метасимволов начала и конца строки (http://www.php.net/manual/ru/reference.pcre.pattern.syntax.php)

А задачу я бы решал так, как предложил WP.

Kirill · 10 Июл 2007

если кодировка UTF-8 нужно использовать модификатор u

Opik · 10 Июл 2007

Kirill
Читаем внимательнее, модификатор u я пробовал

planarik · 10 Июл 2007

удалил

WP · 10 Июл 2007

Тредстартер проверяет username?

Scud · 10 Июл 2007

А вот эти "а-яА-Я" они в самом скрипте в какой кодировке написаны?

Opik · 10 Июл 2007

WP
Именно, при регистрации.
Scud
Файл в UTF-8

Scud · 11 Июл 2007

1. раз UTF-8, то /u полюбому
2. в примере между A и Z подчеркивание, а не дефис - опечатка?

Код:

if(preg_match("/(?:^[a-zA-Z0-9-_\s]*$)|(?:^[а-яА-Я0-9-_\s]*$)/u", $string))
{
	print "good";
}
else
{
	print "bad";
}

Может так?

p.s. Буква 'ё' в диапазон не попадает.

Opik · 11 Июл 2007

Scud
1) Согласен
2) М... опечатка...
3) Да, помогло, работает, спасибо...
но тогда другой вопрос - почему раньше работало? Главный вопрос решен, сейчас же ради того, что бы стало понятно

kamatoz · 11 Июл 2007

Opik
потому что /U - жадность и !=/u

Opik · 11 Июл 2007

kamatoz
я знаю, когда в первом посте я писал про u, я писал именно про маленькую u (UTF)

Проблемы с юникодом при обработке регулярными выражениями

Opik

Новичок

WP

^_^

Opik

Новичок

phprus

Moderator

Kirill

Новичок

Opik

Новичок

planarik

Новичок

WP

^_^

Scud

Новичок

Opik

Новичок

Scud

Новичок

Opik

Новичок

kamatoz

Новичок

Opik

Новичок