кодиране на знаците

Всеки номер (в определени граници) в паметта на компютъра, кодирани номера бинарна система. За да направите това, има прости и ясни правила за превод. Въпреки това, към днешна дата на компютъра се използва много по-широко, отколкото е в ролята на трудоемки изчисления художника. Например, текстови и мултимедийни информацията, съхранена в паметта на компютъра. Затова възниква на първия въпрос:







Като символи (букви) се съхраняват в паметта на компютъра?

Всяка буква принадлежи към дадена азбука, в която героите следват един след друг и по този начин могат да бъдат номерирани с последователни числа. Всяка буква може да бъде свързана с положително цяло число, и го наричат ​​герой код. Именно този код ще се съхраняват в паметта на компютъра, както и при изходна до екрана или хартия "трансформира" в съответния символ. За да се разграничи от представителството на числа, представляващи знаци в паметта на компютъра, също така е необходимо да се съхранява информация за това кои данни е кодиран в определена област от паметта.

Спазването на някои букви от азбуката с номера, кодове, формиращи т.нар кодова книга. С други думи, всеки символ от азбуката има свой специфичен код номер в съответствие с определена маса кодиране.

Въпреки това, азбуки в света са толкова много (английски, български, китайски, и т.н.). Затова следния въпрос:

Как да се кодират всички азбуки, използвани в компютъра?

За да отговорим на този въпрос, нека да мине през историческите.

В 60-те години на XX век в кодирането на знаците маса Американски институт за стандартизация (ANSI) е разработена, която впоследствие е била използвана във всички операционни системи. Тази таблица се нарича ASCII (American Standard Code за информационен обмен - American Standard Code за информационен обмен). Малко по-късно, не е разширена версия на ASCII.







В съответствие с кодираща таблица ASCII за представяне на един символ се разпределя 1 байт (8 бита). Разположен на 8 клетки може да отнеме 8 февруари = 256 различни стойности. Първите 128 стойности (от 0 до 127) са постоянни и образуват така наречената основна част от масата, която включва десетични цифри, букви от азбуката (главни и малки букви), препинателни знаци (точка, запетая скоби и др ..), както и като пространство и разнообразие от специални символи (раздел, нов ред и др.). Стойности от 128-255 образуват допълнителна част от масата, където се предполага, че кодира извън английската азбука.

Тъй като националните азбуки огромен набор, разширената ASCII маса, има много варианти. Дори има няколко кодови книги (общ Windows-1251 и KOI8-R) за българския език. Всичко това създава допълнителни трудности. Например, ние изпращаме писмо, написано на един кодиране, и приемника се опитва да я прочетете в друга. Резултатът вижда безсмислици. Затова читателят е длъжен да прилага по отношение на текста на друга кодова книга.

Има и друг проблем. В някои езици, азбуки твърде много знаци и те не се вписват в определените им позиции от 128 до 255 еднобайтови кодировки.

Третият проблем - какво да се прави, ако текстът използва повече от един език (например, български, английски и френски език)? Не можете да използвате две маси наведнъж ...

За решаването на тези проблеми по едно време кодиране на Unicode е разработен.

Unicode характер стандартно кодиране

За решаването на посочените по-горе проблеми в началото на 90-е разработен кодирането на знаците стандарт Unicode е получил името си. Този стандарт позволява да използвате почти всеки език и символи в текста.

Unicode кодова таблица осигурява в продължение на 31 бита (4 байта минус една битова). Броят на възможните комбинации дава transmarginal номер: 2 31 = 2 147 483 684 (т.е., повече от два милиарда). Ето защо, Unicode азбуки описва всички известни езици, дори и "мъртви" и измислени, включително много математически и други специални знаци. Въпреки това, капацитетът на информация от 31-битов Unicode е все още твърде голям. Ето защо, по-често се използва съкратен 16-битова версия (2 16 = 65536 стойности), който кодира всички съвременни азбуки.

В Unicode, първите 128 кодове съвпадат с таблицата на ASCII.