выделить языки из utf-8

maxx

слип-стримом в поворот
выделить языки из utf-8

данные хранятся в utf-8.
мне нужно выделить, например, китайские символы. я потом эти данные буду в big-5 конвертить...

я так понимаю для каждого языка в utf-8 есть свой поддиапазон. не подскажете где можно найти таблицу диапазонов.
я уже пол дня насилую яндекс с yahoo :(
заранее спасибо
 

alexhemp

Новичок
Ты хочешь сделать авто-детект кодировки?

Посмотри вот какие идеи используются - по сути упрощенный частотный анализ.
http://www.mozilla.org/projects/intl/UniversalCharsetDetection.html

Расскажи подробнее что у тебя на входе и что ты хочешь с этим сделать.
 

kvf77

Red Devil
maxx
мой совет - всегда обозначай язык, на котором у тебя написаны данные - это всего + 1 поле в базу, которое значительно облегчит тебе жизнь, думаю, что на данном этапе знание диапазона никак не облегчит тебе работу и добавит лишних шлопот при выборке из базы данных

-~{}~ 22.06.05 17:35:

alexhemp

поскольку у него все данные в одной кодировке - автодетект сводится к простому определению диапазону букв - но это очень сложно, потому что не все команды PHP нормально работают в этом плане с юникодом
 

maxx

слип-стримом в поворот
Расскажи подробнее что у тебя на входе и что ты хочешь с этим сделать.
я генерирую пдф документ
я поддерживаю китайский, японский, тайваньский
для каждого языка мне нужно из utf8 конвертировать в big-5 и т.д....

может сумбурно объяснил... но голова квадратная :(

-~{}~ 22.06.05 17:39:

Автор оригинала: kvf77
maxx
мой совет - всегда обозначай язык, на котором у тебя написаны данные - это всего + 1 поле в базу, которое значительно облегчит тебе жизнь, думаю, что на данном этапе знание диапазона никак не облегчит тебе работу и добавит лишних шлопот при выборке из базы данных
ам.. у меня сайт один, а филиалов несколько и каждый из них может писать на разных языках... (т.е. по названию филиала я не могу определить язык) :(
 
Сверху