Авиационно инженерство Административно право Административно право Беларус Алгебра Архитектура Безопасност на живота Въведение в професията „психолог” Въведение в икономиката на културата Висша математика Геология Геоморфология Хидрология и хидрометрия Хидросистеми и хидравлични машини Културология Медицина Психология икономика дескриптивна геометрия Основи на икономически т Oria професионална безопасност Пожарна тактика процеси и структури на мисълта, Професионална психология Психология Психология на управлението на съвременната фундаментални и приложни изследвания в апаратура социалната психология социални и философски проблеми Социология Статистика теоретичните основи на компютъра автоматично управление теория на вероятностите транспорт Закон Turoperator Наказателно право Наказателно-процесуалния управление модерна производствена Физика Физични феномени Философски хладилни инсталации и екология Икономика История на икономиката Основи на икономиката Икономика на предприятията Икономическа история Икономическа теория Икономически анализ Развитие на икономиката на ЕС Спешни ситуации ВКонтакте Однокласници Моят свят Facebook LiveJournal Instagram
border=0

Информация и азбука

Отчитайки формите на представяне на информацията, те отбелязват факта, че аналоговата форма е естествена за човешките сетивни органи, но универсалната трябва да се разглежда като дискретна форма на представяне на информацията с помощта на определен набор от знаци. По-специално по този начин представената информация се обработва от компютър и се предава чрез компютър и други комуникационни линии. Съобщението е поредица от символи на азбуката. Когато те се предават, възниква проблемът с разпознаването на знака: как да се чете съобщението, т.е. върху получените сигнали за установяване на началната последователност от знаци на основната азбука. В устната реч това се постига чрез различни фонеми (главни звуци на различни звуци), с които се различават речевите признаци. В писмен вид това се постига чрез различен вид писма и по-нататъшния ни анализ на написаното. Как този проблем може да бъде решен с техническо устройство, ще разгледаме по-късно. Сега е важно да се приложи някаква процедура (механизъм), чрез която да се избере определен знак от съобщението. Но появата на конкретен знак (буква) на определено място в дадено съобщение е случайно събитие. Следователно признаването (идентифицирането) на знак изисква получаване на част от информацията. Можете да свържете тази информация със самия знак и да приемете, че знакът съдържа (съдържа) определено количество информация. Нека се опитаме да изчислим тази сума.

Да започнем с най-грубото приближение (ще го наречем нула, което се отразява от индекса на получените стойности) - да предположим, че появата на всички символи (букви) на азбуката в съобщението е еднакво вероятна. Тогава за английската азбука n e = 27 (като се вземе предвид пространството като независим знак); за руската азбука n r = 34. От формулата Хартли (2.15) намираме:

Оказва се, че в нулево приближение средно повече информация е свързана със знака на руската азбука, отколкото със знака на английския. Например, в руската буква "а" има повече информация, отколкото в "а" английски! Това със сигурност не означава, че английският - езикът на Шекспир и Дикенс - е по-беден от езика на Пушкин и Достоевски. Езиковото богатство на езика се определя от броя на думите и техните комбинации и по никакъв начин не е свързано с броя на буквите в азбуката. От гледна точка на технологията, това означава, че съобщенията с равен брой символи ще имат различна дължина (и съответно време за предаване) и ще бъдат по-дълги в съобщенията на руски език.

Тъй като следващото (първо) сближаване, определящо оригинала, ще се опитаме да вземем предвид факта, че относителната честота, т.е. вероятността от различни букви в текста (или съобщението) е различна. Разгледайте таблицата със средните честоти на буквите за руската азбука, която включва и пространствен символ за разделяне на думи (от книгата на А. М. Яглом и И. М. Яглом [49, с.238]); като се вземе предвид неразличимостта на буквите "е" и "е", както и "ь" и "ъ" (както е прието при телеграфното кодиране), получаваме азбука от 32 знака със следните вероятности за появата им в руски текстове:

Таблица 2.1

За да се оцени информацията, свързана с избора на единичен знак на азбуката, като се вземе предвид неравномерната вероятност за тяхното появяване в съобщението (текстовете), можете да използвате формулата (2.14). От него, по-специално, следва, че ако p i е вероятността (относителната честота) на символен номер i на тази азбука от N символа, тогава средният размер на информацията за символ е равен на:

Това е известната формула на К. Шанън *, от чиято работа „Математическа теория на комуникацията” (1948) е прието да се счита възрастта на компютърните науки като независима наука [46]. Заради обективността трябва да се отбележи, че подобни изследвания се провеждат почти едновременно с Шанън у нас, например, в същата 1948 г. е публикувана творбата на А. Колмогоров "Математическата теория на предаването на информация".

Всъщност формулата на Шанън, подобно на формулата Хартли, първоначално е била написана за ентропия. Въпреки това, за нашето представяне, по-удобна форма изглежда е запис чрез концепцията за информация.

По принцип информацията, съдържаща се в съобщението, може да зависи от това, в кой момент от време тя достига приемника. Например, ненавременен доклад за времето очевидно не носи същата информация като навременна. Крайният случай е ситуацията, когато цялата информация, предавана от съобщението, се определя от момента на получаването му; например стачка с часовник или повикване от урок. Възможно е обаче да има съобщения, при които съдържащата се в тях информация не зависи от времето на получаване. По-конкретно, подобна ситуация се реализира, ако вероятността да се намери знак в съобщение не зависи от времето, по-точно, тя е еднаква по всяко време и е равна на относителната честота на знака p i в цялата последователност от знаци. Следователно, вероятностите на знаците (относителни честоти) се определят за съобщения (текстове), съдържащи голям брой знаци, така че да се появяват статистически модели, а след това се считат за постоянни във всички съобщения на даден източник.

Съобщенията, в които вероятността за поява на всеки отделен знак не се променя с времето, се наричат Шанън, а подателят , който ги генерира , се нарича източник на Шанън.

Ако съобщението е Shannon, тогава предварително са известни набора от символи (азбука) и информацията, свързана с всеки символ. В този случай, тълкуването на съобщението, което е поредица от сигнали, се свежда до проблема за разпознаване на символи, т.е. идентифициране на точно кой знак е в дадено място на съобщението. И такава задача, както вече видяхме в предишния параграф, може да бъде решена чрез поредица от двойни избори. Размерът на информацията, съдържаща се в знака, служи като мярка за разходите за идентифицирането му.

Информационната теория е изградена специално за съобщенията на Шанън, така че в бъдеще ще разгледаме това като отправна точка (условие за използване) на теорията и ще разгледаме само такива послания.

Прилагането на формула (2.17) към азбуката на руския език дава стойността на средната информация за знак I 1 ( r ) = 4.36 бита, а за английски I 1 ( e ) = 4.04 бита, за френски I 1 ( f ) = 3 96 бита за германски I 1 ( d ) - 4.10 бита, за испански I 1 ( s ) = 3.98 бита. Както виждаме, както на руски, така и на английски език, като се вземат предвид вероятностите за появата на буквите в съобщенията, води до намаляване на средното информационно съдържание на буквата, което, между другото, потвърждава валидността на формулата (2.7).

Несъответствието между значенията на информацията на английски, френски и немски език въз основа на една и съща азбука се дължи на факта, че честотите на появата на едни и същи букви в тях са различни.

Следващите приближения при оценяването на стойността на информацията, която може да се припише на знака на азбуката, трябва да вземат предвид корелациите, т.е. връзки между букви с думи. Факт е, че с думи буквите не се появяват в никаква комбинация; това намалява несигурността на познаването на следващата буква след няколко, например на руски език няма думи, в които да се намери комбинация от schc или ph. И напротив, след някои комбинации е възможно да се прецени появата на следващата буква с по-голяма сигурност, отколкото чистият случай, например, след обща комбинация, писмото за гласна винаги следва, а има 10 на руски, и следователно вероятността да се познае следващата буква 1/10 , а не 1/33. Както е посочено в книгата на L. Brillouin [7, p.46], като се вземат предвид двубуквените комбинации на английски думи, намалява средната информация със знак до стойността I 2 ( e ) = 3.32 бита, като се отчита трибуквено число до I 3 (e) = 3.10 бита , Шанън е в състояние да оцени приблизително I5 (e) 2.1 бита и I8 ( e ) = 1.9 бита. Подобни изследвания за руския език дават: I 2 (r) = 3.52 бита; I3 (r) = 3,01 бита. Последователността I 0 , I 1 , I 2 ... се спуска на всеки език. Екстраполирайки го към отчитане на безкраен брой корелации, може да се оцени ограничаващата информация за знак на даден език I ¥ , която ще отразява минималната несигурност, свързана с избора на азбучния знак, без да се вземат предвид семантичните особености на езика, докато I 0 е друг ограничаващ случай, защото характеризира най-голямата информация, която може да се съдържа в знака на азбуката. Шанън въведе стойността, която наричаше относителната излишък на езика:

Излишъкът е мярка за безсмислени алтернативни решения при четене на текст. Тази стойност показва колко голяма част от излишната информация съдържа текстовете на този език; излишно в това, че се определя от структурата на самия език и следователно може да се възстанови без изрично посочване в азбучен вид.

Изследването на Шанън за английски дава стойност от I ¥ ≈ 1.4 b 1.5 бита, което, по отношение на I 0 = 4.755 бита, създава излишък от около 0.68. Подобни оценки показват, че за други европейски езици, включително руски, съкращенията са 60–70%. Това означава, че по принцип почти трикратно (!) Намаляването на текстовете е възможно без да се засяга тяхното съдържание и изразителност. Например, телеграфните текстове са по-кратки, като се изхвърлят съюзи и предлози, без да се накърнява смисълът; те използват еднозначно интерпретирани съкращения „PTA“ и „PST“ вместо пълни думи (трябва да се използват тези съкращения, тъй като знаците „.“ и „,“ не са включени в телеграфната азбука). Но подобно „икономично” представяне на думи намалява разбираемостта на езика, намалява способността за разбиране на речта в присъствието на шум (и това е една от проблемите при предаването на информация по реалните комуникационни линии), а също така елиминира възможността за локализиране и коригиране на грешка (писане или предаване), когато се случи. Това е съкращаването на езика, което прави възможно лесното възстановяване на текста, дори ако съдържа голям брой грешки или е непълен (например, когато се познават кръстословици или когато се играе "Field of Miracles"). В този смисъл съкращението е определена застраховка и гаранция за четливост.





Вижте също:

Начини за настройка на държавната машина

Пример 7.4

Тестови въпроси и задачи

Кодове за корекция на единични грешки

Изпълнител на алгоритъм

Връщане към съдържанието: Теоретични основи на компютърните науки

2019 @ ailback.ru