Unicode

Ur standard stlenn eo Unicode. Savet eo bet gant Consortium Unicode, evit reiñ da bep arouezenn e ne vern peseurt reizhiad doare-skrivañ, un niver, un anv hag ur c'hodadur hepken, en un doare unvan, a ya en-dro war ne vern peseurt reizhiad urzhiataerezh pe meziant.

Pal

Unicode, embannet en 1991 evit ar wezh kentañ, a zo bet krouet evit kemer lec'h ar c'hodoù evel ISO-8859-1, ma oa meur a hini anezho evit meur a rumm yezh.

E gwirionez n'eo ket bet goloet an holl sistemoù skritur c'hoazh, abalamour da labourioù enklask ret n'hallont bezañ graet nemet gant arbennigourien, evid arouezennoù dibaot-kenañ pe sistemoù nebeut-anavezet (re ar yezhoù marv, lakaomp).

Memes-tra e kaver dija e-barzh Unicode an taol vras deus ar sistemoù implijet tro-dro ar bed.

Normoù ha versionoù

Da heul ar labour war Unicode ec'h-a an heni war an norm ISO/ CEI 10646 hag en deus ar memes palioù. An ISO/CEI 10646, un norm internaçional embannet en galleg hag en saosneg, na zivis ket na reolenn komposiñ-karakterioù, nag o ferzh semantik.

Unicode en-em okupa deus ar c'h- casse, deus urzh an alfabet, ha deus penaos kombinañ sinoù-diforc'hañ ha karakterioù.

Ar c'harakterioù e-barzh ar versïon Unicode 3.0 a so identifïet memes-mod e-barzh an norm ISO/CEI 10646:2000.

Ar versïon Unicode 3.2 a glassa 95 221 a garakterioù, a simboloù pe a direktivoù.

Ar versïon aktuel a so an heni 4.0.1 deus meurzh 2004.

Problemoù a chom, (ha kudennoù marsen), ewid kodiñ ar c'h- karakterioù chineseg.

Limit an oktet

Pa ra an ASCII gant 7 bit, hag an doareoù ISO 8859 (evel an ISO 8859-1 pe latin-1) gant 8, e oa ezomm ewid Unicode ouzhpenn 8 bit. Ar limit a oa bet lakaet da 16 bit d'ar penn kentañ, med bremañ e soñj an dud e vo ezomm 20 pe martrese 21 bit.

UTF, Unicode Transformation Format

Ewid resonioù a beb sort e vez kenniget gant Unicode tri mod da godiñ ur c'harakter (ur simbol) : an UTF-8, an UTF-16 hag an UTF-32. Ar chifr goude « UTF » a zivis ped bit a so neçesser, d'an nebeutañ, ewid kodiñ ur c'harakter.

UTF-8

An UTF-8 an-heni vez implijet ar muioc'h ewid Internet. Gantañ e vez kodet karakterioù so gant 1 oktet (ar letrennoù ASCII), karakterioù all gant 2 (ar letrennoù gant sinoù-diforchañ), pe gant 3. Skañvoc'h eo ewid pezh sell deus an implij-memor (med torr-penn-oc'h ewid skriviñ algoritmoù). En ur mod iwe ema an UTF-8 kompatibl gant ar programmoù kozh.

Da skwer e vo kodet gant UTF-8 an é evel « Ã© », hag ar chadenn a bewar c'harakter Zokén vo « Zokén ».

UTF-16

An UTF-16 en em laka hanter-hent etre espern ar memor hag aested ar programmiñ. An darn vrasañ eus ar c'harakterioù Unicode bet divizet beteg bremañ (an implijetañ) a zo kodabl gant 16 bit. Setu e vez koded gantañ toud ar c'harakterioù gant 2 oktet, nemed un nebeud re. Java a ra gantañ.

UTF-32

Gantañ e vez kodet toud ar c'harakterioù war 4 oktet ingal.

Ar fontoù Unicode

Unicode ne ra ket med listañ karakterioù ha roiñ un niverenn da beb heni. Ne lar ket penaos tresañ anezhe war ar skramm pe war ar paper (ne zivis ket ou glifoù).

N'eus ket a v- bijeksion etre tresadur an arouezenn hag he niverenn, evel en ur font ASCII pe latin-1.

Da skouer ez eus daou vod da godiñ un é : dre niverenn an é (un glif prekomposet), pe dre niverenn an 'e' heuliet gant niverenn an tired boud hep chasse (ur c'homposadur). Ewid ar lagad e vez gwelloc'h implijañ glifoù prekomposet.

Un dra all, gant sistemoù skritur zo, evel an devânagarî pe an alfabet arab, e vez ur bern labour ewid komposiñ ligaturioù : ar graphem a cheñch e lec'h er ger, hervez ar grafemoù all tro-dro dehañ.

Setu emañ skoemp komz deus ur font Unicode. Kaoud ur font gant tout an tresadennoù possubl n'eo ket a-walc'h : red eo kaout ur moteur gouest da zivizout peseurt hini implijañ. Doc'h an tu all, e oar ur font Unicode kalz a draoù n'int ket e-barzh Unicode anehe...

Other Languages
Afrikaans: Unicode
Alemannisch: Unicode
አማርኛ: ዩኒኮድ
العربية: يونيكود
অসমীয়া: ইউনিক’ড
azərbaycanca: Unicode
Boarisch: Unicode
беларуская: Унікод
беларуская (тарашкевіца)‎: Юнікод
български: Уникод
বাংলা: ইউনিকোড
bosanski: Unicode
català: Unicode
ᏣᎳᎩ: ᏳᏂᎪᏛ
کوردی: یوونیکۆد
čeština: Unicode
Чӑвашла: Юникод
Cymraeg: Unicode
dansk: Unicode
Deutsch: Unicode
Ελληνικά: Γιούνικοντ
English: Unicode
Esperanto: Unikodo
español: Unicode
eesti: Unicode
euskara: Unicode
فارسی: یونی‌کد
suomi: Unicode
français: Unicode
Gaeilge: Unicode
galego: Unicode
ગુજરાતી: યુનિકોડ
עברית: יוניקוד
हिन्दी: यूनिकोड
hrvatski: Unikod
magyar: Unicode
Հայերեն: Յունիկոդ
interlingua: Unicode
Bahasa Indonesia: Unicode
Ilokano: Unicode
íslenska: Unicode
italiano: Unicode
日本語: Unicode
Basa Jawa: Unicode
ქართული: უნიკოდი
қазақша: Юникод
ಕನ್ನಡ: ಯುನಿಕೋಡ್
한국어: 유니코드
कॉशुर / کٲشُر: यूनिकोड
Kurdî: Unicode
Кыргызча: Юникод
lietuvių: Unikodas
latviešu: Unikods
олык марий: Unicode
മലയാളം: യൂണികോഡ്
монгол: Юникод
मराठी: युनिकोड
Bahasa Melayu: Unicode
မြန်မာဘာသာ: ယူနီကုဒ်
Plattdüütsch: Unicode
नेपाली: युनिकोड
नेपाल भाषा: युनिकोड
Nederlands: Unicode
norsk nynorsk: Unicode
norsk: Unicode
occitan: Unicode
ਪੰਜਾਬੀ: ਯੂਨੀਕੋਡ
polski: Unikod
português: Unicode
română: Unicode
русский: Юникод
संस्कृतम्: युनिकोड
саха тыла: Юникод
Scots: Unicode
srpskohrvatski / српскохрватски: Unikod
සිංහල: යුනිකෝඩ්
Simple English: Unicode
slovenčina: Unicode
slovenščina: Unicode
shqip: Unicode
српски / srpski: Unikod
Basa Sunda: Unicode
svenska: Unicode
తెలుగు: యూనికోడ్
тоҷикӣ: Юникод
Tagalog: Unikodigo
Türkçe: Unicode
ئۇيغۇرچە / Uyghurche: Unicode
українська: Юнікод
اردو: یونیکوڈ
Tiếng Việt: Unicode
walon: Unicôde
吴语: Unicode
მარგალური: იუნიკოდი
ייִדיש: יוניקאד
Yorùbá: Unicode
中文: Unicode
Bân-lâm-gú: Unicode
粵語: 統一碼