OqPoWah.com

Kodiranje Unicode: standardno kodiranje znakov

Vsak uporabnik interneta pri poskusih nastavitve ene ali druge funkcije vsaj enkrat na zaslonu je videl pisno v latinici

besedo "Unicode". Kaj je to, se boste naučili z branjem tega članka.

Unicode, kaj je to

Opredelitev

Kodiranje Unicode je znak, ki kodira standard. Predlagala jo je neprofitna organizacija Unicode Inc. leta 1991. Standard je namenjen združevanju čim več različnih vrst simbolov v enem dokumentu. Stran, ki je na njej ustvarjena, lahko vsebuje črke in hieroglifi iz različnih jezikov (od ruskega do korejskega) in matematične znake. Vsi znaki v tem kodiranju so brez težav prikazani.

Razlogi za ustvarjanje

Enkrat, preden se je pojavil sistem Unicode, je bilo kodiranje izbrano glede na želje avtorja dokumenta. Zaradi tega pogosto prebrali en dokument, uporabili ste različne tabele. Včasih je bilo treba to storiti večkrat, kar je bistveno zapletlo življenje navadnega uporabnika. Kot smo že omenili, je rešitev tega problema leta 1991 predlagala neprofitna organizacija Unicode Inc., ki je predlagala novo vrsto kodiranja znakov. Povabljen je bil k združevanju moralno zastarelih in raznolikih standardov. "Unicode" - kodiranje, ki je omogočilo, da v tistem času doseže nezamenljivo: ustvariti orodje, ki podpira veliko število znakov. Rezultat je presegel številna pričakovanja - pojavili so se dokumenti, ki so hkrati vsebovali angleško in rusko besedilo, latinske in matematične izraze.

Toda za oblikovanje enotnega kodiranja je sledila potreba po rešitvi številnih težav, ki so se pojavile zaradi velikega števila standardov, ki so takrat že obstajali. Najpogostejši so:

  • elfic spisi ali "karkozyabry";
  • omejen nabor znakov;
  • problem kodiranja pretvorbe;
  • podvajanje pisav.

Unicode standard

Kratek zgodovinski odmik

Predstavljajte si, da je dvorišče osemdesetih. Računalniška tehnologija ni tako razširjena in ima obliko drugačno od danes. Medtem ko vsak OS je edinstven in rafinirani posebne potrebe vsakega navdušenca je. Potreba po izmenjavi informacij se spremeni v dodatno revizijo vsega na svetu. Poskus, da bi prebral dokument, ki ga drug operacijski sistem ustvarili, pogosto prikazuje nenavaden niz znakov, in igra se začne s kodiranjem. To ni vedno to storiti hitro, in včasih je potrebno dokument ni mogoče odpreti v šestih mesecih, in tudi kasneje. Ljudje, ki pogosto izmenjujejo informacije, ustvarijo same pretvorbene tabele. In potem delajo na njih razkriva zanimivo podrobnost: potreba, da jih ustvarili v dveh smereh, "iz mojih v vaš" naprej in nazaj. Naredite banalno inverzija računalništvo stroj ne more, za to v desnem stolpcu vira, in levo - rezultat, ne pa obratno. Če vidite, da je treba uporabljati nobenih posebnih znakov v dokumentu, ki jih je bilo treba najprej dodali, in nato še eno, in razložiti partnerju, kaj je treba storiti, da teh znakov ne postanejo "žlobudranje". In ne smemo pozabiti, da je za moral vsak kodiranje za razvoj in izvajanje lastne pisave, ki so pripeljali do ogromnega števila kopij v OS.

Predstavljajte si tudi, da na strani pisave boste videli 10 kosov enakega Times New Roman z majhnimi notami: za UTF-8, UTF-16, ANSI, UCS-2. Zdaj razumete, ali je razvoj univerzalnega standarda nujna potreba?

Unicode kodiranje

"Očetje-ustvarjalci"

Začetki ustanovitve Unicode, ki se je pokazala leta 1987, ko je Joe Becker iz Xerox, skupaj z Lee Collins in Mark Davis iz Apple začel raziskave na področju praktičnega oblikovanju univerzalnega nabora znakov. Avgusta 1988, Joe Becker objavila osnutek predloga za oblikovanje 16-bitni večjezični mednarodni kodirni sistem.

Nekaj ​​mesecev kasneje je bila delovna skupina Unicode razširil tudi Ken Whistler in Mike Kernegana od RLG, Glenn Wright v Sun Microsystems in več drugih strokovnjakov, ki omogoča dokončanje dela na predhodnem oblikovanju skupne kodiranja standard.

Unicode kodiranje

Splošni opis

Unicode temelji na konceptu simbola. Ta definicija se razume kot abstraktni pojav, ki obstaja v določeni obliki pisanja in se uresničuje skozi grafehe (njene »portrete«). Vsak znak je v Unicode nastavljen z edinstveno kodo, ki pripada določenemu bloku standarda. Na primer, grafa B je v angleški in ruski abecedi, toda v Unicode ustreza 2 različna znaka. Pretvorijo se v majhna črka, to pomeni, da je vsaka od njih opisana s ključem baze podatkov, nizom lastnosti in polnim imenom.

Prednosti Unicode




Od drugih sodobnikov je kodiranje Unicode odlikoval velika zaloga znakov za "šifriranje" znakov. Dejstvo je, da so njegovi predhodniki imeli 8 bitov, to je, da so podprli 28 znakov, vendar je bil novi razvoj že 216 znakov, kar je bil velik korak naprej. To je omogočilo, da kodira skoraj vse obstoječe in porazdeljene abecede.

S prihodom Unicode ni bilo treba uporabljati pretvorbenih tabel: kot en sam standard je preprosto izničil njihovo potrebo. Podobno je tudi "krakozyabry" izginil v pozabo - enotni standard jih je onemogočil, prav tako pa je odpravila potrebo po ustvarjanju podvojenih pisav.

Razvoj Unicode

Seveda napredek ne miruje, od prve predstavitve pa je minilo 25 let. Vendar kodiranje Unicode trmasto ohranja svoj položaj na svetu. V mnogih pogledih je to postalo mogoče zaradi dejstva, da je postalo enostavno implementirati in razširiti, saj so ga razvili lastniki (plačane) in odprtokodne programske opreme.

kodiranje unicode (standardno kodiranje znakov)

Ne smemo verjeti, da je danes vidimo isto oznako "Unicode" kot četrt stoletja nazaj. V tem trenutku ga je zamenjalo različica 5.h.h, in število kodiranih simbolov se je povečalo na 231. V zvezi z možnostjo uporabe večjo stopnjo znamke zavrnil, da še vedno zagotavljati podporo Unicode-16 (kodiranje, kjer je najvišji znesek njihovo omejeno število 216). Od svojih začetkov pa do različice 2.0.0 je "Standard Unicode" povečalo število znakov, ki jih je vključenih skoraj 2-krat. Rast priložnosti se je v naslednjih letih nadaljevala. Do različice 4.0.0 je že bilo treba povečati standard sam, kar je bilo storjeno. Kot rezultat, je Unicode pridobil obliko, v kateri jo poznamo danes.

Unicode, kaj je tako

Kaj še obstaja v Unicode?

Poleg velikega, vedno večjega števila znakov, "Unicode" - kodiranje besedilnih informacij ima še eno koristno funkcijo. Govorimo o tako imenovani normalizaciji. Namesto pomika celotnega simbola dokumenta z znakom in zamenjanjem ustreznih ikon iz tabele ujemanja, se uporabi eden od obstoječih algoritmov normalizacije. O čem govorimo?

Namesto da bi porabili računalniške vire pri rednem preverjanju istega simbola, ki je lahko podoben v različnih abecedah, se uporablja poseben algoritem. Omogoča vam, da vzamete podobne znake v ločenem grafu pregledne tabele in se že obrnete na njih in ne večkrat preverite vseh podatkov.

Obstajajo štirje takšni algoritmi, razviti in implementirani. V vsakem od njih se transformacija odvija v skladu s strogo opredeljenim načelom, ki se razlikuje od drugih, zato ni mogoče določiti enega izmed njih najučinkovitejši. Vsak je bil razvit za posebne potrebe, izveden in uspešno uporabljen.

Kodiranje besedila Unicode

Širjenje standarda

Za 25 let svoje zgodovine je kodiranje Unicode verjetno prejelo največjo porazdelitev na svetu. V skladu s tem standardom se prilagodijo tudi programi in spletne strani. Obseg uporabe je mogoče reči z dejstvom, da Unicode danes uporablja več kot 60% internetnih virov.

Sedaj veste, kdaj se je pojavil standard "Unicode". Kaj je to, prav tako veste in boste lahko cenili celotno vrednost izuma, ki jo je pripravila skupina strokovnjakov iz podjetja Unicode Inc. pred več kot 25 leti.

Zdieľať na sociálnych sieťach:

Príbuzný