Proč se vymyslel bit ?  
Kódování zpráv pro jejich rychlejší šíření nebo utajení je velmi staré. Dnes je důležité ze stejných důvodů, ale také i pro něco navíc. S jeho pomocí máme dnes internet. Poznali jsme genetický kód. A pustili jsme se do dešifrování psychického kódu.

K přenášení informací se odedávna používaly kouřové nebo v noci ohňové signály. Šlo vesměs o smluvené signály, které neposkytovaly volnou komunikaci. Znala je celá řada národů – Indiáni, Číněné, atd. Známé je také bubnováním v Africe, jehož kód nebyl rozluštěn. Stejně nerozluštěn zůstal také kód obyvatel kanárského ostrova Gomera. Gomeřané se dorozumívali pískáním a mohli si sdělovat celé věty včetně abstraktních pojmů.

Na smluvených sděleních spočíval také nejstarší známý telegraf vyvinutý Aeneam Stymphalským okolo 350 př.n.l.


Nejstarší známý telegraf je od Aenea Stymphalského. Zařízení vypadalo následovně. Z válce unikala voda a tím se snižovala hladina ve válci. Na povrchu válce byly pod sebou napsány různé zprávy charakteristické při vedení války. Například první zpráva „Jezdectvo zaútočilo“; druhá pod ní „Těžkooděnci zaútočili.“; třetí zpráva „Lehká pěchota zaútočila.“; čtvrtá „Pěchota a jezdectvo zaútočili.“ apod. Druhá strana měla přesně stejný válec se stejně velkým otvorem na odtékání vody a se stejnými nápisy. Strana, která chtěla vysílat zvedla pochodeň a čekala až druhá strana zvedne také pochodeň. Jakmile ta ji zvedla, tak obě strany nechaly vytékat z válce vodu. Vysílací strana zhasla pochodeň v tu chvíli, když hladina vody ve válci klesla ke zprávě, kterou chtěla oznámit. Pak se válce na obou stranách znovu naplnily a celé se to opakovalo.

Nejstarší dochované kódování známe také z Řecka. Čtyřicet let po vítězství u Marathonu, kolem roku 450 př.n.l., napsali Kleoxénés a Démokleitos první nám dnes známé a dochované kódování. Použili 24 písmen řecké abecedy a uspořádali ji do tabulky o pěti řádcích a pěti sloupcích.

Nejstarší kódování

Zvětšit obrázek
Namísto štítu se používaly také dvě stěny nebo zdi a nad ně se zvedal příslušný počet pochodní. Na obrázku vidíme, jak se právě vysílá písmeno gamma (třetí sloupec první řádka).



Vysílalo se tak, že se s pochodní upažilo vlevo tak často, aby to odpovídalo řádce v níž se písmeno nacházelo. Podobně vpravo se upažilo tak často, aby to odpovídalo příslušnému sloupci. Vysílání zprávy „Dvanáct lodí se blíží“ nebo „Sto Kréťanů dezertovalo.“ trvalo údajně půl hodiny. Uvádí se, že pomocí této technologie a na základě informace o rozložení nepřátelského loďstva mohl Alkidas zvítězit v peloponéské válce (431-404 př.n.l.).

Zvětšit obrázek
Polybios (200-120 př.n.l.)

Teoretické základy komunikace pochodněmi, jak bychom se dnes vyjádřili, popsal dějepisec Polybios. Za velkým štítem stáli dva „telegrafisté“, kteří vystrkovali pochodeň na určitém místě na levé nebo pravé straně štítu podle toho, které písmeno chtěli vysílat. Tím se vysílání zprávy urychlilo a bylo možné v porovnání s Aeneovou technikou vyměňovat libovolné zprávy.


Příklad:
Jakou rychlostí přenášeli Řekové stěnovou technikou informace?
Samozřejmě, že to záviselo od toho, jak šikovní byli telegrafisté a jak daleko od sebe byly stanice. Předpokládejme, že na přenos jednoho znaku řecké abecedy potřebovali 5 – 10 sekund. To je v průměru 7,5 sekundy na jeden znak; (5+6+7+8+9+10)/6=7,5. Za jednu minutu mohli vyslat 8 znaků (60 / 7,5 = 8). I když to není tak zcela pravda, předpokládejme pro jednoduchost, že každý z 24 znaků se objevoval se stejnou pravděpodobností, takže každý znak přenesl ld(1/24) = 4,58 bitu informace. Informační rozsah (obsah) h = ld 1/p jsme odvodili v předchozím článku „Kdo si vymyslel bit“. Za jednu minutu to jsou tedy 4,58 x 8 = 36,64 bity a tedy 36,64 / 60 = 0,61 bitu/sekundu. Pokud nemáte logaritmus dualis na své kalkulačce, pak platí ld x = log x / log 2 = ln x / ln 2

Příklad:
Jesltiže opravíme předpoklad stejné pravděpodobnosti znaků, pak v souvislém textu
připadají na jeden znak asi 2 bity informačního rozsahu (obsahu). To je za jednu minutu 2 x 8 = 16 bitů a tedy 16 / 60 = 0,27 bitu / sekundu.

šifra

V kryptografii si ustálil pojem polybiova šifra (mongrafická monoabecední bipartitní substituce). „Ahoj“ bychom šifrovali jako 11 23 34 24. Tento způsob šifrování se v principu udržel až do První světové války – např. polybiův čtverec v šifrovací metodě ADFGX.


Okolo roku 150 př.n.l. měli Římané síť signálních (kouřových) stanic kolem 4500 km. Přenášení zpráv zdokonalovali a přenesení stejné zprávy se zkrátilo z jedné půlhodiny na 2 až 3 minuty. Zbytky jedné takové římské signální věži je možné spatřit v jihofrancouzském městě Nimes. Plinius píše, že tak Římané poznali, že není všude v tutéž dobu noc a den. To je přivedlo na myšlenku kulatosti Země.

Základní pojmy
Informace je význam signálu, která byla přenesena zprávou. Signál je fyzikální nebo fyziologická veličina, jejíž hodnotový průběh zobrazuje zprávu. Analogickým signálem je například šířící se hustší nebo řídčí vzduch. Jestliže umíme na takové medium působit, můžemem jím šířit zprávu. Takovým působením je například řeč. Z řeči se může vyvinout jazyk, tj. systém pravidel (nebo-li syntax) jak zacházet se znaky. V nějakém jazyku koncipovaná zpráva je většinou složena za znaků. Množina znaků nějakého jazyka je abeceda.

Dosud uvedené metody se označují jako skupinové. První kódující znak určoval, do které skupiny je kódované slovo zařazeno. Například tečka nebo čárka na prvním místě v Morseově abecedě určí skupinu kódovacího stromu. Principiálně odlišné jsou sekvenční nebo sčítací metody. Například u analogových telefonů se jeden impuls kódoval do jedničky, dva impulzy do dvojky až 9 impulzů do čísla devět. Nebo bití věžových hodin oznamuje kolikátá uhodila.


Příklady na jazyky

písmo


Vývoj obrázkového písma ke klínovému. Původní abeceda sestávající z několika tisíc znaků byla ca v roce 3000 př.n.l. redukována na 560 znaků.

Morseho kód



Morseho kód

Legenda na každé mapě je souhrn pravidel jak přenést objekty reálného světa do mapy. Budovu jako obdélník, les jako zelenou plochu, řeku jako modrou linku, apod. Pomocí informační teorie bychom mohli porovnat např. dvě pravidla. A sice zda zobrazit všechny objekty v odstínech šedi nebo použít pestré barvy. Které z těchto dvou pravidel (způsobů zobrazení) se lépe čte? Zjistili bychom, že redundantní informace (např. zelená namísto šedé pro les, modrá linka řeky namísto šedé linky) se lépe čte. Stejně tak je i řeč nebo psané slovo značně redundatní. Pozor ale: měřítko mapy (např. 1:50.000) je také pravidlo.
Genetická informace je zakódována v genech. Gen je úsek kyseliny desoxyribonukleinové (DNA). Tyto úseky jsou různě dlouhé, tvořené různým množstvím nukleotidů.

nukleotid

Cukerný fosfát a báze tvoří nukleotid.


Báze DNA jsou guanin, citosin, adenin a thymin. Celá genetická abeceda se tak skládá ze čtyř genetických písmen G, C, A, T, které symbolizují báze. V kombinaci těchto písmen (bází) je zakódována genetická informace.

spojování

Nukleotidy se spojují do řetězce. Tři nukleotidy (písmena, báze) tvoří jedno slovo. Ze čtyř možných bází DNA a tři bází jednoho slova lze vytvořit 43 = 64 různých slov.


genom


Lidský genom má asi 3 x 109 bázických párů. Genomem označujeme veškerou dědičnou informaci jedné buňky.


Příklad:

Jaký informační rozsah (obsah) má jedna báze?
Na místě jedné báze se může objevit jedna ze čtyř: adenin, guanin, cytosin nebo thymin. Vyjdeme-li z předpokladu, že každá báze je stejně pravděpodobná, pak pravděpodobnost výskytu jedné z nich je p = 0,25
h = - ld 1/p = -ld 1/4 = -log 1/4 / log 2 = 2
Informační rozsah (obsah) jedné báze jsou 2 bity.
V publikaci Základy buněčné biologie (Alberts et al.) je tato úloha formulována jinak (otázka 6-13): Kolik bitů by muselo specifikovat každý nukleotidový pár v sekvenci DNA? Odpověď: Kombinací dvou bitů, tj. 00, 10, 01, 11, lze určit každé písmeno (nukleotid, bázi).


Genetický kód je pravidlo jak 64 genetických slov vytváří 21 aminokyselin. Při přenosu informace např. z genu A dvouřetězové DNA na protein A, z genu B na protein B atd. se lineární sekvence nukleotidů v DNA překládá do lineární sekvence aminokyselin v proteinech.

kód aminokyselin


Na obrázku vidíme všech 64 slov a s jejich pomocí je tvořeno 21 aminokyselin.



Některá slova (kombinace písmen, bází) označujeme jako startovní, jiná jako konečná. Jejich funkcí je označit počátek a konec posloupnosti slov (bází), které tvoří jeden gen. Pro překlad do proteinu je využívána jen menšín část genu. Převažující nekódující části genu určují kdy a v jakém množství bude daná bílkovina syntetizována.

Optimalizace kódu
Redundance (entropie) se rovná rozdílu střední (průměrné) délky slova a informačního obsahu (rozsahu). Nízká redundance je příznakem efektivního kódování. Naproti tomu vysoká redundance umožňuje rozpoznat chyby. Redundance udává o kolik bitů je slovo binárního kódu v průměru delší než by bylo v optimálním případě nutné.
R = L – H
Střední délka slova L se rovná součinu pravděpodobnosti znaku a délky binárního slova. Závisí na kódování, poněvadž zohledňuje délku slova.
L = - ∑ p l
Střední informační obsah (rozsah) H se rovná součinu pravděpodobnosti znaku a informačního obsahu (rozsahu). Nezávisí na na kódování, ale pouze na pravděpodobnosti znaků.
H = - ∑ p h

Optimálně kódujeme nějaké sdělení tehdy, když pro jeho přenos potřebujeme minimální informaci. Do jaké míry se nějaký jazyk (některý z dorozumívacích jazyků lidí, chemický jazyk na popis stavby molekul, šachový jazyk na popis tahů, hudební notový jazyk na popis ovládání tónů (nástroje), matematický na popis operací na objektech, programovací jazyk na popis sledu operací, apod.) přibližuje optimálnímu kódování? Přispívá k efektivnosti jazyka větší nebo menší rozsah abecedy? Takové výzkumy se prováděly na dorozumívacích jazycích lidí a zjistilo se, že s rozsáhlejší abecedou souvisí větší redundance.
Jak lze takovou optimalizaci provést? Roberta M. Fano a Claude E. Shannon jednu takovou metodu vymysleli. V literatuře je známa jako Fano kód. Příkladem uplatnění je v ZIP formátu pecifikovaný kompresní postup IMPLODE. O Fano kódu, Huffmanovu kódu a dalších někdy příště.


Poznámka: Článek je volným pokračováním článku: „Kdo si vymyslel bit ?“

Datum: 10.03.2008 23:00
Tisk článku


Diskuze:


Diskuze je otevřená pouze 7dní od zvěřejnění příspěvku nebo na povolení redakce








Zásady ochrany osobních údajů webu osel.cz