Unicode — стандарт кодирования символов, включающий в себя знаки почти всех письменных языков мира. Стандарт предложен в 1991 году некоммерческой организацией Unicode Consortium (Unicode Inc.). Применение этого стандарта позволяет закодировать очень большое число символов из разных систем письменности без переключения кодовых страниц.
Стандарт состоит из двух основных частей: универсального набора символов (Universal character set, UCS) и семейства кодировок (Unicode transformation format, UTF). Универсальный набор символов перечисляет допустимые по стандарту Юникод символы и присваивает каждому символу код в виде неотрицательного целого числа, записываемого обычно в шестнадцатеричной форме с префиксом U+
, например, U+040F
. Семейство кодировок определяет способы преобразования кодов символов для передачи в потоке или в файле.
Коды в стандарте Юникод разделены на несколько областей. Область с кодами от U+0000
до U+007F
содержит символы набора ASCII, и коды этих символов совпадают с их кодами в ASCII. Далее расположены области символов других систем письменности, знаки пунктуации и технические символы. Рассмотрим состав Юникода подробней.
Некоторые символы не содержатся в стандартном наборе шрифтов большинства компьютеров, они будут отображаться прямоугольником с их кодом внутри.