Кодировка Unicode (Юникод в локализациях Microsoft или Уникод в некоторых других случаях) – это стандарт кодирования символов, позволяющий представить знаки почти всех письменных языков мира.
Стандарт был предложен в 1991 году некоммерческой организацией Unicode Consortium (Unicode Inc.). Применение этого стандарта позволяет закодировать в цифровой (двоичной) форме очень большое число символов из разных письменностей: в документах с кодировкой (шрифтом) Unicode могут соседствовать китайские иероглифы, математические символы, буквы греческого алфавита, латиницы и кириллицы, причем становится ненужным переключение кодовых страниц. Стандарт состоит из двух основных разделов: универсальный набор символов (UCS, Universal Character Set) и семейство кодировок (UTF, Unicode Transformation Format, формат преобразования).
Коды в стандарте Unicode разделены на несколько областей. Область с кодами от U+0000 до U+007F содержит символы набора ASCII (Американский стандартный код для обмена информацией) с соответствующими кодами. Далее расположены области знаков различных письменностей, знаки пунктуации и технические символы. Часть кодов зарезервирована для использования в будущем. Для обозначения символов Unicode используется запись вида «U+xxxx» (для кодов 0…FFFF), или «U+xxxxx» (для кодов 10000…FFFFF), или «U+xxxxxx» (для кодов 100000…10FFFF), где xxx — шестнадцатеричные цифры. Например, символ «я» (U+044F) имеет код 044F16 (в шестнадцатеричной записи) = 110310 (в десятичной записи). Для символов кириллицы выделены области знаков с кодами от U+0400 до U+052F, от U+2DE0 до U+2DFF, от U+A640 до U+A69F. Хотя формы (форматы) записи UTF-8 и UTF-32 позволяют кодировать до 2 в степени 31 (2 147 483 648) кодовых позиций, было принято решение использовать лишь 1 112 064 для совместимости с UTF-16.
С каждой новой версией стандарта увеличивается число символов. Последняя на данный момент версия Unicode 7.0 от июня прошлого года добавила еще 2834 новых символа, из которых примерно 250 относятся к значкам эмоций (emoticon или emoji, как стали недавно писать на английском). Чтобы эти символы стали видны на экране, необходимо соответствующим образом изменить базовый шрифт операционной системы, что обычно делается при переходе на новую версию операционной системы.
Однако за прошедший год один из символов эмоции в стандарте Unicode 7.0 так и остался нереализованным. Его официальное описание звучит как «Reversed Hand With Middle Finger Extended (повернутая рука с вытянутым средним пальцем)», код U+1F595, который так же известен как «the finger (палец, и не просите меня объяснять, куда его предполагается вставить)», он же FU, т.е. F**k You. В русском языке (да, именно в языке русских жестов) ранее употреблялся символ «фига», но его эмоциональная окраска и табуированность была в разы меньше, чем у the finger в английском языке.
В операционных системах (точнее: в базовых Unicode-шрифтах этих систем) iOS, OS X и Android этот символ не реализован, однако некое издание Emojipedia утверждает, что в Windows 10 появится значок the finger (http://blog.emojipedia.org/windows-10-emoji-changelog ), там же рассказано и о многих других новых или измененных символах Unicode в Windows 10.
Например, следуя рекомендациям Unicode относительно цвета кожи по умолчанию на значках с изображением людей (как мне кажется, в угоду вездесущей в англо-саксонском мире политкорректности), в Windows 10 вместо здорового цвета кожи кремового белого оттенка появится мертвецкий серый цвет, который не связан с человеком вообще (nonhuman) и не показывает расовой принадлежности (race-neutral default). Заметим, что Google и Apple пока используют яркий оттенок желтого.
Кстати, в текущей версии Unicode 7.0 также появился символ нашего рубля вместе с азербайджанским манатом.
Источник:
http://blog.emojipedia.org/windows-10-emoji-changelog
http://unicode.org/
http://www.unicode.org/versions/Unicode7.0.0/