UTF-8 и Unicode

Роберт

Аналитик
UTF-8 и Unicode

Народ , может кто-то подтвердить или опровергнуть:
Я всю жизнь считал , что количество символов которое можно закодировать в UTF-8 гораздо больше чем в Unicode , потому что Unicode всегда 2 байта на символ , а в UTF-8 от 1 до 4 байтов на букву. Но мне тут недавно сказали , что существуют прямые алгоритмы для шифрации букв из Unicode в UTF-8 и обратно! Это возможно только если они способны кодировать одинаковое количество символов. Но разве это так?
Я знаю формат UTF-8 , и что первые байты у него служебные , но не учто даже при 4 байтах на букву он не способен закодировать их больше уникоды???
 

kim

Guest
Если коротко, то юникод - это всего лишь стандарт, описывающий универсальный набор символов. UTF-8/16, UCS-2/4 всего лишь _кодировки_ для представления юникода.
Ну как для русского языка есть кои, ср1251, исошная кодировка....
Да, утф8 вроде может кодировать и с помощью 6 байт.
Для деталей см. unicode-howto
 

Роберт

Аналитик
Я имел ввиду , что Unicode может максимум иметь 256*256=65 тысяч символов , а UTF-8 (как я считал) гораздо больше. Значит это не так?
 

kim

Guest
Дык, наврено плохо объяснил....
Unicode и UTF-8 есть немножко разные понятия.
Сколько всего букв(начертаний) в мире? А сколько из этих букв используются одновременно в разных языках?
Например, буква A в юникоде одна, но в конкретной кодировке утф8 это будет английская A, немецкая A, русская A,.. и каждая со своим кодом.
То есть юникода - это перечень символов для представления почти всех известных языков.
Кодировка - это "припысывание" символам кодов в зависимости от языка.
 

Роберт

Аналитик
Автор оригинала: kim
Например, буква A в юникоде одна, но в конкретной кодировке утф8 это будет английская A, немецкая A, русская A,.. и каждая со своим кодом.
Значит ты хочешь сказать , что Unicode - это перечень букв , а UTF-8 - это кодовая страница? То есть , одинаковые буквы в Unicode не повторяются , а в UTF-8 повторяются?
Про начертание я правда как-то очень не уверен - русская и английская буква А ведь хоть и похожи но в уникоде однозначно различаются. Разве нет?
 

Crazy

Developer
Народ, ликбез лежит вот здесь.

Прочитайте оба -- и продолжайте общаться, но уже на одном языке. :)
 
Сверху