Авиационно инженерство Административно право Административно право Беларус Алгебра Архитектура Безопасност на живота Въведение в професията „психолог” Въведение в икономиката на културата Висша математика Геология Геоморфология Хидрология и хидрометрия Хидросистеми и хидравлични машини Културология Медицина Психология икономика дескриптивна геометрия Основи на икономически т Oria професионална безопасност Пожарна тактика процеси и структури на мисълта, Професионална психология Психология Психология на управлението на съвременната фундаментални и приложни изследвания в апаратура социалната психология социални и философски проблеми Социология Статистика теоретичните основи на компютъра автоматично управление теория на вероятностите транспорт Закон Turoperator Наказателно право Наказателно-процесуалния управление модерна производствена Физика Физични феномени Философски хладилни инсталации и екология Икономика История на икономиката Основи на икономиката Икономика на предприятията Икономическа история Икономическа теория Икономически анализ Развитие на икономиката на ЕС Спешни ситуации ВКонтакте Однокласници Моят свят Facebook LiveJournal Instagram
border=0

Унифицирано буквено двоично кодиране. Код за байт

В този случай, двоичният код на първичната азбука е конструиран от вериги с еднаква дължина, т.е. същото количество информация, равно на I ( A) = log 2 N е свързано с всички знаци.Не е необходимо да се оформи знакът на края на знака, следователно, за да се определи дължината на код, можете да използвате формулата K (A , 2) > log 2 N. елементарни сигнали и интерпретира веригата (установява кой характер съответства), свързвайки я с таблицата с кодове. Вярно е, че отказите са неприемливи, например прескачането (неотчитане) на един елементарен сигнал ще доведе до изместване на цялата кодова последователност и неправилно тълкуване; проблемът се решава чрез синхронизиране на предаването или по друг начин, който ще бъде разгледан в гл. 5. От друга страна, използването на единен код се оказва едно от средствата за контрол на коректността на прехвърлянето, тъй като фактът, че е получен ненужен елементарен сигнал или обратно, получаването на непълен код се тълкува веднага като грешка.

Пример за унифицирано азбучно кодиране е телеграфният код на Бодо, който замени морзевия код. Оригиналната азбука трябва да съдържа не повече от 32 знака; след това K (A, 2) = log 2 32 = 5 , т.е. всеки символ на основната азбука съдържа 5 бита информация и се кодира с низ от 5 двоични знака. Условие N ≤ 32 очевидно се изпълнява за езици, базирани на латинската азбука ( T = 27 = 26 + "space"), но в руската азбука има 34 букви (с интервал) - по тази причина азбуката трябва да бъде "компресирана" (както е в Huffman code) и се комбинират в един знак "e" и "e", както и "ь" и "ъ", както може да се види от таблицата. 3.1. След такава компресия, N = 32, обаче, няма свободни кодове за препинателни знаци, следователно те липсват в телеграмите или се заменят с буквени съкращения; Това не е забележимо ограничение, тъй като, както е споменато по-горе, излишъкът на езика позволява лесно да се възстанови информационното съдържание на съобщението. Резервирането на кода на Бодо за руския език е Q (r , 2) = 0.148, за английския език Q ( e , 2) = 0.239.

Друг важен пример за използването на еднородно азбучно кодиране е представянето на информация за знака (знак) в компютъра. За да определите дължината на кода, трябва да започнете с установяване на броя на знаците в основната азбука. Компютърната азбука трябва да включва:

· 26 x 2 = 52 букви от латинската азбука (включително главни и малки букви);

· 33 x 2 = 66 букви от руската азбука;

· Цифри 0 .. .9 - само 10;

· Признаци на математически операции, препинателни знаци, специални знаци ≈ 20.

Получаваме, че общият брой символи N ≈ 148. Сега можем да оценим дължината на кодовата верига: K (s, 2) ≥ log 2 148 ≥ 7.21. Тъй като дължината на кода е изразена като цяло число, очевидно е, че K (s, 2 ) = 8. Този метод на кодиране е приет в компютърните системи: всеки знак има код от 8 бита (8 бита). Тази последователност се съхранява и обработва като цяло (т.е. няма достъп до единичен бит) - поради тази причина ширината на компютърните устройства за съхраняване или обработване на информация е кратна на 8. Наборът от осем свързани битове се нарича байтове, а представянето на символите. - кодиране на байтове.

Байт, заедно с бит, може да се използва като единица за измерване на количеството информация в съобщението. Един байт съответства на количеството информация в един знак на азбуката с тяхната равнопоставена разпределение. Този метод за измерване на количеството информация се нарича още обем. Нека да има някакво съобщение (поредица от символи); оценяване на количеството информация, съдържаща се в нея, според вероятностния подход, разгледан по-рано (използвайки формулата на Шанън (2.17)) дава вяра и нека обемната мярка е равна на I vol ; връзката между тези величини следва от (2.7):

Това е байт, приет като единица за измерване на количеството информация в международната система от единици на SI. 1 байт = 8 бита. Заедно с байт се използват по-големи извлечени единици за измерване на количеството информация:

Използването на 8-битови вериги ви позволява да кодирате 2 8 = 256 символа, което надвишава очакваното по-горе N и следователно дава възможност да се използва останалата част от кодовата таблица за представяне на допълнителни символи.

Въпреки това, не е достатъчно да се съгласувате с конкретна дължина на кода. Ясно е, че методите за кодиране, т.е. Има много възможности за сравняване на знаците на основната азбука на осембитовите вериги. Поради тази причина съвместимостта на техническите средства и способността за обмен на информация между много потребители изисква съгласуване на кодовете. Такава координация се извършва под формата на стандартизация на кодови таблици.

Първият такъв международен стандарт, който се използва на големи компютри, е EBCDIC (разширен двоичен кодиран десетичен код за обмен) - „Разширено двоично кодиране на десетичния код за обмен“. В персоналните компютри и телекомуникационните системи се използва Американският стандартен код за обмен на информация (Американски стандартен код за обмен на информация).

Той регулира кодовете на първата половина на кодовата таблица (кодови номера от 0 до 127, т.е. първия бит от всички кодове от 0). Кодове за главни и малки букви на английски, цифри, препинателни знаци и математически операции, както и някои контролни кодове (числа от 0 до 31), генерирани при използване на клавиатурата, попадат в тази част. По-долу са дадени някои FSC кодове:

Втората част от кодовата таблица - тя се счита за разширение на основната - обхваща кодове в диапазона от 128 до 255 (първия бит на всички кодове 1). Използва се за представяне на символи на национални азбуки (например руски), както и на псевдографски символи. Има и стандарти за тази част, например за героите на руския език, това са KOI-8, KOI-7 и др.

Както в основната таблица, така и в нейното разширение, кодовете на буквите и цифрите съответстват на техния лексикографски ред (т.е. реда на азбуката) - това дава възможност за автоматизиране на текстообработката и за ускоряване.

Друг международен стандарт за кодиране, Unicode, вече се появи и става все по-широко използван . Неговата особеност е, че използва 16-битово кодиране, т.е. За представяне на всеки символ се разпределят 2 байта. Тази дължина на кода предвижда включването в основната азбука на 65 536 знака. Това от своя страна ви позволява да създадете и използвате една кодова таблица за всички общи азбуки.





Вижте също:

Схеми на логически елементи и закъснения

Преобразуване на нормализирани числа

Струнен вербален алгоритъм

Паралелен канал за предаване

Глава 4. Представяне и обработка на цифри в компютър

Връщане към съдържанието: Теоретични основи на компютърните науки

2019 @ ailback.ru