Pisno kodiranje podatkov


Kaj sploh pomeni kodiranje:

Velja naslednja definicija: Kodiranje je predstavitev informacije z dogovorjenimi znaki.

Sicer pa naš naslov odpira več odgovorov. Prvi je seveda lahko ta, da v računalniku prav vse podatke kodiramo v dvojiški obliki, torej s kodami, ki jih predstavljajo zaporedja ničel in enic. Tudi pisni znaki so v računalniku kodirani z nizom ničel in enk.

Ker je možnosti za kodiranje znakov neskončno, se je potrebno dogovoriti, kako bomo znake kodirali. Uvesti je potrebno standard. Če bi znaki bili na vsakem računalniku drugače kodirani, bi nam to onemogočilo prenos podatkov iz enega na drug računalnik.

Sredi šestdesetih let so v ZDA programerski strokovnjaki za najpogosteje uporabljene znake določili stalne kode, kar naj bi omogočalo izmenjavo informacij med poljubnimi računalniki. Ta dogovor so poimenovali »American Standard Code for Information Interchange«, kar pomeni ameriška standardna koda za izmenjavo informacij. Standard na kratko označimo ASCII in izgovorimo "aski".

Po ASCII standardu  kodiramo znake z osem- mestnimi dvojiškimi števili. 

S klikom na levo sliko lahko pridemo do popolne tabele ASCII.

Standard ASCII ne predpisuje vseh 256 kod, ki jih omogoča zapis z osmimi biti, ampak le 128, od kode 0 do kode 127. V njej ne najdemo šumnikov, ki jih seveda nujno potrebujemo. Standard ASCII je neposredno uporaben samo v angleško govorečih deželah. Pisave drugih dežel povečini vsebujejo dodatne lastne znake, ki jih ASCII ne pozna. Omenjeni problem rešujemo z uvajanjem dodatnih kodnih standardov, ki jih imenujemo kodne tabele.


Unicode


Unicode je univerzalni nabor znakov, tj. standard, ki na enem mestu določa vse znake, ki so potrebni za pisanje večine živih jezikov, ki se uporabljajo na računalnikih. Njegov cilj je, da je in je v veliki meri že nadmnožica vseh drugih naborov znakov, ki so bili kodirani.


Besedilo v računalniku ali na spletu je sestavljeno iz znakov. Znaki predstavljajo črke abecede, ločila ali druge simbole.


V preteklosti so različne organizacije sestavljale različne sklope znakov in ustvarjale kodiranja - en sklop bi lahko zajemal samo zahodnoevropske jezike, ki temeljijo na latinščini (razen držav EU, kot sta Bolgarija ali Grčija), druga pa lahko pokriva določen daleč vzhodni jezik (npr. kot japonski), drugi pa so lahko eden od mnogih sklopov, ki so zasnovani precej ad hoc za predstavitev drugega jezika nekje na svetu.
Žal ne morete zagotoviti, da bo vaša aplikacija podpirala vsa kodiranja, niti da bo dano kodiranje podpiralo vse vaše potrebe po predstavljanju določenega jezika. Poleg tega je običajno nemogoče kombinirati različna kodiranja na isti spletni strani ali v podatkovni bazi, zato je ponavadi zelo težko podpirati večjezične strani z uporabo „zapuščinskega“ pristopa k kodiranju.



Glede na to, da govorimo o obdelavi podatkov, potrebujemo bolj natančen odgovor. Skoraj vsi računalniški programi na nek način obdelujejo podatke. To pomeni, da programi sprejemajo podatke kot vhod, jih obdelajo in tvorijo izhodne podatke. Pomislimo na orodja za pisarniško poslovanje: Oblikovalnik besedil, preglednica, priprava predstavitev, oblikovanje hipertekstnih gradiv. Prav v vseh teh in podobnih primerih najbrž želimo, da to, kar smo ustvarili, shranimo (na disk ali v oblak) za kasnejšo obdelavo. Morda pa jih posredujemo komu drugemu. Ta jih bo moral s svojim programom prebrati in morda spet obdelati.


Ali morata imeti oba uporabnika povsem enak program? Kaj pa, če imata različen operacijski sistem?

Odgovor leži v dogovorjenih oziroma ustaljenih formatih zapisov datotek. Tako lahko dokumente, ki smo jih napisali s programom »Writer« in shranili kot datoteke tipa *.docx, razume tudi popularni Word. (ni pa to vedno nujno). Še bolje je, če besedilne dokumente pomnimo v formatu pdf.


Podobni »de facto« standardi veljajo tudi za druge programe in ne le na področju pisarniškega poslovanja, pač pa tudi računalniškega načrtovanja, programiranja ipd. Poglejmo kakšen program in hitro lahko ugotovimo, da ima verjetno pri shranjevanju podatkov možnost »shrani kot:«, kjer lahko izberemo primeren format.


Včasih imamo možnost predaje dokumentov in drugih podatkov med precej različnimi programskimi aplikacijami, ki se sicer same po sebi »ne razumejo«. V nekaterih primerih najdemo pri njih opcijo »uvoza« oziroma »izvoza« podatkov. V tem primeru pride v bistvu pred vnosom podatkov v drugi program do pretvorbe (konverzije) podatkovnega formata.


Na spletu najdemo tudi številne komercialne in prosto dostopne pretvornike formatov (online converters). Ti tipično omogočajo nalaganje izvorne datoteke na nek strežnik, po pretvorbi pa si lahko datoteko, pretvorjeno v nek drug format, skopiramo na naš lokalni računalnik. Primeren pretvornik hitro najdemo s primernim iskalnikom. Pred uporabo se splača pregledati lestvice trenutno najboljših (in po možnosti prosto dostopnih).



Končno lahko odgovor o kodiranju podatkov najdemo še v »kodiranju podatkov« zaradi njihove zaščite. To pride predvsem v poštev pri prenosu zaupnih podatkov preko interneta. Zakodiran (zašifriran) dokument postane neberljiv in ga takega lahko pošiljamo po elektronski pošti, shranjujemo v oblak in navsezadnje imamo tako zaščitenega (pred krajo) tudi na lastnem računalniku. Za ponovno dešifriranje potrebujemo geslo oziroma ključ.


S šifriranjem lahko sicer zaščitimo datoteke, mape in celo diske.