Ako sa ukladajú znaky a text

Počítač pracuje s binárnou sústavou, čiže pre uchovanie, spracovanie a šírenie informácií musíme informácie preložiť do binárneho kódu. Preto je potrebné všetky textové, obrazové a zvukové informácie ukladať v počítači pomocou núl a jednotiek.

Textovú informáciu zapíšeme v počítači tak, že pre základ zápisu textu zvolíme znak a preň vhodné kódovanie.

Kódovanie znakov

Hľadanie spôsobu, ako pomocou 0 a 1 zakódujeme písmená abecedy a, b, c, …, číslice 0, …, 9, interpunkčné znamienka ako bodka, čiarka, úvodzovky…, ďalej medzeru, Enter, Tab…,  písmená s mäkčenmi a dĺžňami ľ, š, č, ť, ž, ý, á, í, é, ú, ô, … apod.

Týchto znakov je menej ako 256, čiže 28. Na kódovanie každého znaku použijeme 8 bitov. Skupina 8 bitov je jeden bajt (byte).

Kódová tabuľka, ktorá sa používa v prostredí Microsoft Windows pre stredoeurópske krajiny pod názvom kódová stránka 1250 (zdroj: http://www.microsoft.com/GLOBALDEV/Reference/sbcs/1250.mspx).

1250

Znakom priradíme binárne kódy, čím dostaneme kódovú tabuľku.  Ak chceme zistiť kód pre znak Š, tak ho vyhľadáme v tabuľke – nachádza sa v stĺpci 128 a v riadku 10. Keď tieto dve čísla spočítame, dostaneme kód pre znak Š, čiže číslo 138. V dvojkovej sústave je to 10001010.

Ak chceme nájsť znak, ktorého kód je 01001101, tak týchto  8 bitov rozdelíme na dve skupiny po 4 bity – 0100 a 1101. Keď ich prevedieme prvú štvoricu do desiatkovej sústavy a vynásobíme číslom 16, dostaneme číslo 64, ktoré určuje číslo stĺpca. Druhú štvoricu prevedieme do desiatkovej sústavy a dostaneme číslo riadka – 13. Hľadaný znak je M.

Pre kódovanie slov platí, že za seba zoradíme všetky kódy znakov. Nemusíme sa starať o medzery, nakoľko aj medzera je znak a má svoj kód.

Tabuľka uvedená vyššie nám zobrazuje jednu z viacerých možností kódovania.

Za posledných 30 rokov vznikli významné pokusy o jednotné kódovanie. Najrozšírenejšia je tzv. ASCII tabuľka (American Standard Code forInformation Interchange – Americký štandardný kód pre výmenu informácií). Jeho nevýhodou je, že každý znak sa kóduje iba siedmimi bitmi, čiže môžeme používať iba 27 = 128 znakov.

Ľubovoľný znak z ASCII tabuľky napíšeme tak, že stlačíte ľavé tlačídlo Alt a na numerickej klávesnici vyťukáme príslušný kód. Napríklad ľavý Alt + 64 napíše @.

ASCII tabuľka (zdroj: http://silent.melias.sk/assembler/ascii_tab.html)

ascii

Ďalším typom kódovania je UNICODE. Toto kódovanie používa 16 bitov na zakódovanie jedného znaku, čo umožňuje zakódovať 65 536 možných znakov. Tento počet znakov umožňuje zakódovať znaky všetkých abecied pomocou jednej medzinárodnej tabuľky.

Ukážka tabuľky kódovania UNICODE: http://www.tamasoft.co.jp/en/general-info/unicode.html

Tento spôsob kódovania používa i kancelársky balík MS Office a zabezpečuje, že ten istý znak má rovnaký kód v každej krajine i na každom type počítača.

Nevýhodou tohto kódovania je, že znaky v kódovaní Unicode, sú kódované 16 bitmi, a teda zaberajú viac pamäte ako kód ASCII.

Istým vylepšením tohto kódovania je kódovanie UTF-8. V tomto kódovaní jeprvých 128 znakov tabuľky ASCII (tieto sú pre všetky krajiny rovnaké), zakódovaných pomocou 8 bitov a zvyšné znaky sú zakódované 16, 24, 32, 40 až 48 bitmi.

Použitá literatúra:

http://sk.wikipedia.org/wiki/Kódovanie_(informatika)

Pridaj komentár