Сам напиши. Материал тебе уже давали. http://ru.wikipedia.org/wiki/Unicode
Один регулярник. Если не ошибаюсь. Не можешь регулярками - пиши с посимвольным перебором строки.
Хотя вообще для подобных функций даже знать строения UTF-8 не обязательно - в регулярках давно есть модификатор u