UTF-8, UTF-16 и UTF-32

Вкратце:

  • UTF-8: кодировка переменной ширины, обратно совместимая с ASCII. Символы ASCII (от U + 0000 до U + 007F) занимают 1 байт, кодовые точки от U + 0080 до U + 07FF занимают 2 байта, кодовые точки от U + 0800 до U + FFFF занимают 3 байта, кодовые точки от U + 10000 до U + 10FFFF взять 4 байта. Подходит для текста на английском языке, не подходит для текста на азиатском языке.
  • UTF-16: кодировка переменной ширины. Кодовые точки от U + 0000 до U + FFFF занимают 2 байта, кодовые точки от U + 10000 до U + 10FFFF занимают 4 байта. Плохо для английского текста, хорошо для азиатского текста.
  • UTF-32: кодировка с фиксированной шириной. Все кодовые точки занимают четыре байта. Огромное количество памяти, но быстрое в использовании. Редко используется.

Короче: см. Википедию: UTF-8, UTF-16 и utf-16 UTF-32.

unicode

utf-8

utf-16

utf

utf-32

2022-11-10T19:53:14+00:00