/ Unicode kodiranje: standardni kodiranje znakova

Unicode šifriranje: standard za kodiranje znakova

Svaki internetski korisnik u pokušajimapostaviti jednu ili drugu od njezinih funkcija barem jednom kad je na zaslonu pisana latiničnim slovima riječ "Unicode". Što je to, naučit ćete čitajući ovaj članak.

Unicode što je to

definicija

"Unicode" kodiranje je standard kodiranjaznakova. Predložio ju je neprofitna organizacija Unicode Inc. 1991. Standard je dizajniran tako da u jednom dokumentu kombinira što je moguće više različitih tipova simbola. Stranica koja se stvara na temelju njega može sadržavati slova i hijeroglife iz različitih jezika (od ruskog do korejskog) i matematičkih znakova. Svi znakovi u ovom kodiranju prikazuju se bez ikakvih problema.

Razlozi za stvaranje

Jednom davno, mnogo prije pojave jedinstvenog sustava"Unicode", kodiranje je odabrano na temelju postavki autora dokumenta. Zbog toga često čitate jedan dokument, morali ste koristiti različite tablice. Ponekad je to trebalo učiniti nekoliko puta, što je znatno kompliciralo život običnog korisnika. Kao što je već spomenuto, rješenje tog problema 1991. godine predložilo je neprofitna organizacija Unicode Inc., koja je predložila novu vrstu kodiranja znakova. Bio je pozvan kombinirati moralno zastarjele i raznovrsne standarde. "Unicode" - kodiranje, što je omogućilo postizanje nezamislivih u to vrijeme: stvoriti alat koji podržava ogroman broj znakova. Rezultat je nadmašio mnoga očekivanja - pojavili su se dokumenti koji istodobno sadrže engleski i ruski tekst, latinski i matematički izrazi.

Ali stvaranje jednog kodiranja prethodilo jenužnost rješavanja velikog broja problema koji su nastali zbog velikog broja standarda koji su već postojali u to vrijeme. Najčešći su:

  • elfic spisi, ili "karkozyabry";
  • ograničeni skup znakova;
  • problem kodiranja konverzije;
  • dupliciranje fontova.

Unicode standard

Kratka povijesna digresija

Zamislite da je dvorište 80 godina. Računalna tehnologija nije toliko rasprostranjena i ima oblik koji se razlikuje od danas. U to vrijeme, svaki OS je jedinstven na svoj način i završava svaki entuzijast za specifične potrebe. Potreba za razmjenom informacija pretvara se u dodatnu reviziju svega na svijetu. Pokušaj pročitati dokument stvoren od strane drugog operativnog sustava, često se prikazuje neobičan skup znakova, a igra počinje s kodiranjem. Nije uvijek moguće to učiniti brzo, a ponekad se traženi dokument može otvoriti šest mjeseci kasnije ili čak kasnije. Ljudi koji često razmjenjuju informacije stvaraju tablice konverzije za sebe. I onda raditi na njima otkriva zanimljiv detalj: potreba da ih stvoriti u dva smjera, „od mojih svoj” naprijed-nazad. Provjerite banalno inverzija stroj za računanje ne može, za to u desnom stupcu izvora, a lijeva - rezultat, ali ne i obrnuto. Ako vidite potrebu koristiti posebne znakove u dokumentu, morali su se prvo dodaje, a zatim još jedan, i objasniti partneru što treba učiniti s tim likovima ne postati „besmislice”. I nemojmo zaboraviti da je za svaki kodiranje morali razviti ili provoditi svoje fontove, što je dovelo do stvaranja velikog broja duplikata u OS.

Zamislite i na stranici fontovaVidjet ćete 10 komada identičnog Times New Roman s malim oznakama: za utf-8, UTF-16, ANSI, UCS-2. Sada shvaćate li da je razvoj univerzalnog standarda nužna nužnost?

Unicode kodiranje

„utemeljitelja kreatora”

Početak stvaranja Unicodea treba tražiti 1987. godinegodine, kada je Joe Becker iz Xeroxa, zajedno s Lee Collinsom i Markom Davisom iz Applea, započeo istraživanje praktičnog stvaranja univerzalnog seta znakova. U kolovozu 1988. Joe Becker objavio je nacrt prijedloga za 16-bitni međunarodni višejezični sustav kodiranja.

Nakon nekoliko mjeseci, radna grupa UnicodeProširen je i Ken Whistler i Mike Kernegan iz RLG-a, Glenn Wright iz Sun Microsystemsa i nekoliko drugih stručnjaka, što je omogućilo završetak rada na preliminarnoj formiranju jedinstvenog kodnog standarda.

unicode kodiranje

Opći opis

Unicode se temelji na pojmu simbol. Ova definicija odnosi se na apstraktni fenomen koji postoji u određenom obliku pisanja i ostvaruje se pomoću grafema (njenih "portreti"). Svaki znak postavljen je u "Unicode" jedinstveni kôd koji pripada određenom bloku standarda. Na primjer, graphe B je na engleskom i ruskom alfabetu, ali u Unicodeu postoje 2 različita simbola. Pretvori se u maleno slovo, tj. Svaki je opisan ključem baze podataka, skupom svojstava i punim imenom.

Prednosti Unicodea

Od ostatka suvremenika koji kodiraju "Unicode"razlikovali su veliku količinu znakova za "šifriranje" znakova. Činjenica je da su njegovi prethodnici imali 8 bita, tj. Podržavali su 28 znakova, dok je novi razvoj imao 216 znakova, što je bio divovski korak naprijed. To omogućava kodiranje gotovo svih postojećih i uobičajenih alfabeta.

Dolaskom "Unicode" više nije potrebnoupotrijebite tablice konverzije: kao jedan standard jednostavno je poništio njihovu potrebu. Na isti način, "pukotine" potonule su u zaborav - jedini standard ih je onemogućio, kao i uklonio potrebu stvaranja dvostrukih fontova.

Unicode razvoj

Naravno, napredak ne prestaje i od tadaPrva prezentacija je prošla 25 godina. Međutim, kodiranje "Unicode" tvrdoglavo drži svoj položaj u svijetu. U mnogim aspektima to je bilo moguće zahvaljujući činjenici da je postao lako implementiran i postao široko rasprostranjen, prepoznavši ga programeri vlasničkih (plaćenih) i open source softvera.

Unicode šifriranje (standard za kodiranje znakova)

Ne bi se trebalo pretpostaviti da danasIsti Unicode kodiranje je dostupan kao četvrt stoljeća prije. Trenutačno je njegova verzija promijenjena na 5.xx, a broj kodiranih znakova povećao se na 231. Odbili su koristiti veću količinu znakova kako bi zadržali podršku za Unicode-16 (kodiranja gdje je maksimalni broj ograničen na 216). Od svog uvođenja u verziju 2.0.0, Unicode Standard je povećao broj znakova koji su uključeni u njega, gotovo 2 puta. Mogućnosti rasta nastavile su se iu narednim godinama. Prema verziji 4.0.0, već je trebalo povećati standard koji je učinjen. Kao rezultat toga, "Unicode" je pronašao onu vrstu kakvu danas poznajemo.

unicode što je to

Što je još u Unicodeu?

Osim ogromne, stalno rastućebroj znakova, "Unicode" -kojeće tekstualne informacije ima još jednu korisnu značajku. Ovo je tzv. Normalizacija. Umjesto da se kroz cijeli dokument simbola pomakne po simbolu i zamjenjuje odgovarajuće ikone iz korespondentne tablice, koristi se jedan od postojećih algoritama za normalizaciju. O čemu se radi?

Umjesto da troši računalne resursestrojevi za redovitu provjeru istog karaktera, koji mogu biti slični u različitim pismima, koriste poseban algoritam. Omogućuje vam izradu sličnih simbola u zasebnom stupcu pregledne tablice i odnosi se na njih, a ne ponovo provjeravajte sve podatke.

Postoje četiri takva algoritma razvijena i implementirana. U svakoj od njih, transformacija se odvija prema strogo definiranom načelu, koji se razlikuje od ostalih, stoga nije moguće imenovati bilo koji od njih kao najučinkovitiji. Svaki je dizajniran za specifične potrebe, implementiran i uspješno korišten.

Unicode tekstno kodiranje

Standardna distribucija

Preko 25 godina svoje povijesti, kodiranje "Unicode"vjerojatno su najčešći na svijetu. Programi i web stranice također su prilagođeni ovom standardu. Činjenica da danas Unicode koristi više od 60% internetskih resursa može govoriti o širini aplikacije.

Sada znate kada se pojavio Unicode standard. Što je to, također ćete znati i moći ćete cijeniti punu vrijednost izuma koju je izradila skupina Unicode Inc. prije više od 25 godina.

Pročitajte više: