Unicode

Ur standard stlenn eo Unicode. Savet eo bet gant Consortium Unicode, evit reiñ da bep arouezenn e ne vern peseurt reizhiad doare-skrivañ, un niver, un anv hag ur c'hodadur hepken, en un doare unvan, a ya en-dro war ne vern peseurt reizhiad urzhiataerezh pe meziant.

Pal

Unicode, embannet en 1991 evit ar wezh kentañ, a zo bet krouet evit kemer lec'h ar c'hodoù evel ISO-8859-1, ma oa meur a hini anezho evit meur a rumm yezh.

E gwirionez n'eo ket bet goloet an holl sistemoù skritur c'hoazh, abalamour da labourioù enklask ret n'hallont bezañ graet nemet gant arbennigourien, evid arouezennoù dibaot-kenañ pe sistemoù nebeut-anavezet (re ar yezhoù marv, lakaomp).

Memes-tra e kaver dija e-barzh Unicode an taol vras deus ar sistemoù implijet tro-dro ar bed.

Normoù ha versionoù

Da heul ar labour war Unicode ec'h-a an heni war an norm ISO/ CEI 10646 hag en deus ar memes palioù. An ISO/CEI 10646, un norm internaçional embannet en galleg hag en saosneg, na zivis ket na reolenn komposiñ-karakterioù, nag o ferzh semantik.

Unicode en-em okupa deus ar c'h- casse, deus urzh an alfabet, ha deus penaos kombinañ sinoù-diforc'hañ ha karakterioù.

Ar c'harakterioù e-barzh ar versïon Unicode 3.0 a so identifïet memes-mod e-barzh an norm ISO/CEI 10646:2000.

Ar versïon Unicode 3.2 a glassa 95 221 a garakterioù, a simboloù pe a direktivoù.

Ar versïon aktuel a so an heni 4.0.1 deus meurzh 2004.

Problemoù a chom, (ha kudennoù marsen), ewid kodiñ ar c'h- karakterioù chineseg.

Limit an oktet

Pa ra an ASCII gant 7 bit, hag an doareoù ISO 8859 (evel an ISO 8859-1 pe latin-1) gant 8, e oa ezomm ewid Unicode ouzhpenn 8 bit. Ar limit a oa bet lakaet da 16 bit d'ar penn kentañ, med bremañ e soñj an dud e vo ezomm 20 pe martrese 21 bit.

UTF, Unicode Transformation Format

Ewid resonioù a beb sort e vez kenniget gant Unicode tri mod da godiñ ur c'harakter (ur simbol) : an UTF-8, an UTF-16 hag an UTF-32. Ar chifr goude « UTF » a zivis ped bit a so neçesser, d'an nebeutañ, ewid kodiñ ur c'harakter.

UTF-8

An UTF-8 an-heni vez implijet ar muioc'h ewid Internet. Gantañ e vez kodet karakterioù so gant 1 oktet (ar letrennoù ASCII), karakterioù all gant 2 (ar letrennoù gant sinoù-diforchañ), pe gant 3. Skañvoc'h eo ewid pezh sell deus an implij-memor (med torr-penn-oc'h ewid skriviñ algoritmoù). En ur mod iwe ema an UTF-8 kompatibl gant ar programmoù kozh.

Da skwer e vo kodet gant UTF-8 an é evel « Ã© », hag ar chadenn a bewar c'harakter Zokén vo « Zokén ».

UTF-16

An UTF-16 en em laka hanter-hent etre espern ar memor hag aested ar programmiñ. An darn vrasañ eus ar c'harakterioù Unicode bet divizet beteg bremañ (an implijetañ) a zo kodabl gant 16 bit. Setu e vez koded gantañ toud ar c'harakterioù gant 2 oktet, nemed un nebeud re. Java a ra gantañ.

UTF-32

Gantañ e vez kodet toud ar c'harakterioù war 4 oktet ingal.

Other Languages
Afrikaans: Unicode
Alemannisch: Unicode
አማርኛ: ዩኒኮድ
العربية: يونيكود
অসমীয়া: ইউনিক’ড
asturianu: Unicode
azərbaycanca: Unicode
Boarisch: Unicode
беларуская: Унікод
беларуская (тарашкевіца)‎: Юнікод
български: Уникод
বাংলা: ইউনিকোড
bosanski: Unicode
català: Unicode
ᏣᎳᎩ: ᏳᏂᎪᏛ
کوردی: یوونیکۆد
čeština: Unicode
Чӑвашла: Юникод
Cymraeg: Unicode
dansk: Unicode
Deutsch: Unicode
Ελληνικά: Γιούνικοντ
English: Unicode
Esperanto: Unikodo
español: Unicode
eesti: Unicode
euskara: Unicode
فارسی: یونی‌کد
suomi: Unicode
français: Unicode
Gaeilge: Unicode
galego: Unicode
ગુજરાતી: યુનિકોડ
עברית: יוניקוד
हिन्दी: यूनिकोड
hrvatski: Unikod
magyar: Unicode
Հայերեն: Յունիկոդ
interlingua: Unicode
Bahasa Indonesia: Unicode
Ilokano: Unicode
íslenska: Unicode
italiano: Unicode
日本語: Unicode
Basa Jawa: Unicode
ქართული: უნიკოდი
қазақша: Юникод
ಕನ್ನಡ: ಯುನಿಕೋಡ್
한국어: 유니코드
कॉशुर / کٲشُر: यूनिकोड
kurdî: Unicode
Кыргызча: Юникод
lietuvių: Unikodas
latviešu: Unikods
मैथिली: युनिकोड
олык марий: Unicode
മലയാളം: യൂണികോഡ്
монгол: Юникод
मराठी: युनिकोड
Bahasa Melayu: Unicode
မြန်မာဘာသာ: ယူနီကုဒ်
Plattdüütsch: Unicode
नेपाली: युनिकोड
नेपाल भाषा: युनिकोड
Nederlands: Unicode
norsk nynorsk: Unicode
norsk: Unicode
occitan: Unicode
ਪੰਜਾਬੀ: ਯੂਨੀਕੋਡ
polski: Unikod
português: Unicode
română: Unicode
русский: Юникод
संस्कृतम्: युनिकोड
саха тыла: Юникод
Scots: Unicode
srpskohrvatski / српскохрватски: Unikod
සිංහල: යුනිකෝඩ්
Simple English: Unicode
slovenčina: Unicode
slovenščina: Unicode
shqip: Unicode
српски / srpski: Unikod
Basa Sunda: Unicode
svenska: Unicode
తెలుగు: యూనికోడ్
тоҷикӣ: Юникод
Tagalog: Unikodigo
Türkçe: Unicode
ئۇيغۇرچە / Uyghurche: Unicode
українська: Юнікод
اردو: یونیکوڈ
Tiếng Việt: Unicode
walon: Unicôde
吴语: Unicode
მარგალური: იუნიკოდი
ייִדיש: יוניקאד
Yorùbá: Unicode
中文: Unicode
文言: 萬國碼
Bân-lâm-gú: Unicode
粵語: 統一碼