Unicode

Dialäkt:  Züritüütsch

Unicode isch en internationale Standard, wo langfristig für jedes sinnträgende Zeiche bzw. Tekschtelement vo allne bekannten Schriftkulture und Zeichesyschtem än digitale Code feschtgläit wird. Er will s'Problem vo dä verschiidene inkompatible Kodierige i dä underschiidliche Länder besytige. Herkömmlichi Computer-Zeichesyschtem umfassed än Zeichevorrat vo entweder 128 (7 Bit) Zeiche wie dä sehr bekannti ASCII-Standard oder 256 (8 Bit) Zeiche, wie z.B. ISO Latin-1, wobii detä nach Abzug vo dä Stüürzeiche 96 Elemänt bi ASCII und 192–224 Elemänt bi dä 8-Bit ISO-Zeichesätz als Schrift- und Sonderzeiche darschtellbar sind. Diä Zeichekodierige erlaubed die gliichzytig Darschtellig von nur wenige Schprache im gliiche Tekscht, wenn mer sich nöd demit behilft, imene Tegscht verschiideni Schrifte mit underschiidliche Zeichesätz z'verwende. Das hät bisher dä internationali Dateuustuusch starch behinderet.

In Unicode finded Zeiche vo dä wichtigschte Industriistandard-Zeichesätz wie d' ISO-Norme ä 1:1-Entsprechig (das bedütet, dass binere Konversion vom Industriistandard zu Unicode und zrugg s'gliiche Ergebnis usechunnt). Hüt erlediged die meischte Webbrowser die Darstellig vo dene Zeichesätz mit ere Unicode-kodierte Schrift i dä Regel perfekt und ooni dass dr Benutzer öbbis merkt.

ISO 10646 isch die praktisch bedütigsgliichi Bezeichnig vom Unicode-Zeichesatz, wo vo ISO verwendet wird; er wird det als Universal Character Set (UCS) bezeichnet.

Codes, Spiicherig und Überträgig

D' Codes vo Unicode-Zeiche werded hexadezimal mit voraageschtelltem „U+“ dargschtellt. Derbii chan „x“ als Platzhalter verwendet werde, wenn zämehängendi Beriich gmeint sind, wie z.B. „U+01Fx“ für dä Codebereich U+01F0–U+01FF.

De Coderuum vo Unicode hät urschprünglich 65'536 Zeiche umfasst (UCS-2, 16 Bit). Bald aber hät sich usegschtellt, dass das nit längt. I dä Version 2.0 isch dä Codebereich um wiiteri 16 gliich große Bereich, sogenannti Planes (Ebene) erwiiteret worde. So sind jetz maximal 1'114'112 (220+216) Zeiche bzw. Codepoints im Codeberiich vo U+00000 bis U+10FFFF vorgsee (UCS-4, 32 Bit). Bis zur Unicode-Version 4.0, sind 96'382 Codes individuelli Zeiche zuegordnet. Das entspricht erst öppe 9% vom gsamte Coderuum.

D Codeberiich (Blöck), wo d'Unicode-Ebene drin iideilt werded, sind i dä Lischte dvo dä Unicode-Blöck vollschtändig ufgfüert. Zuesätzlich zu dä gültig kodierte Zeiche isch au sehr langfrischtig, z. T. no recht ungnau Plaants ufgfüert.

D'Spiicherig und d'Überträgig vo Unicode erfolgt in underschiidliche Formate:

  • Unicode Transformation Format (UTF), wobii UTF-8 am meiste brucht wird, z.B. im Internet und i fascht allne Betriibssystem. Näbed UTF-8 hät UTF-16 e grossi Bedütig, so z.B. als Zeichecodierig in Java, wo em Unicode UCS-4 für alli UCS-2 Codepoints entschpricht, und alli andere Codepoints als Zweiersequenze, die sogenannte Surrogate Pairs, abbildet.
  • SCSU (Standard Compression Scheme for Unicode, früener au als RCSU – Reuters' Compression Scheme for Unicode – bezeichnet) isch ä Methode zur platzsparende Schpiicherig, wo d Aaordnig vo dä verschiedene Alphabet i Blöck usnutzt (lueg au bi dä Weblinks).
  • UTF-EBCDIC isch ä Unicode-Erwiiterig, wo ufem proprietäre EBCDIC-Format vo IBM- Großrechner ufbout.
  • Punycode dient dezue, Domainnäme mit nit-ASCII-Zeiche z'kodiere. Lueg au under: IDNA.
  • Usserdem gits no d Format CESU-8 und GB18030.
Other Languages
Afrikaans: Unicode
አማርኛ: ዩኒኮድ
العربية: يونيكود
অসমীয়া: ইউনিক’ড
asturianu: Unicode
azərbaycanca: Unicode
Boarisch: Unicode
беларуская: Унікод
беларуская (тарашкевіца)‎: Юнікод
български: Уникод
বাংলা: ইউনিকোড
brezhoneg: Unicode
bosanski: Unicode
català: Unicode
ᏣᎳᎩ: ᏳᏂᎪᏛ
کوردی: یوونیکۆد
čeština: Unicode
Чӑвашла: Юникод
Cymraeg: Unicode
dansk: Unicode
Deutsch: Unicode
Ελληνικά: Γιούνικοντ
English: Unicode
Esperanto: Unikodo
español: Unicode
eesti: Unicode
euskara: Unicode
فارسی: یونی‌کد
suomi: Unicode
français: Unicode
Gaeilge: Unicode
galego: Unicode
ગુજરાતી: યુનિકોડ
עברית: יוניקוד
हिन्दी: यूनिकोड
hrvatski: Unikod
magyar: Unicode
Հայերեն: Յունիկոդ
interlingua: Unicode
Bahasa Indonesia: Unicode
Ilokano: Unicode
íslenska: Unicode
italiano: Unicode
日本語: Unicode
Basa Jawa: Unicode
ქართული: უნიკოდი
қазақша: Юникод
ಕನ್ನಡ: ಯುನಿಕೋಡ್
한국어: 유니코드
कॉशुर / کٲشُر: यूनिकोड
Kurdî: Unicode
Кыргызча: Юникод
lietuvių: Unikodas
latviešu: Unikods
олык марий: Unicode
മലയാളം: യൂണികോഡ്
монгол: Юникод
मराठी: युनिकोड
Bahasa Melayu: Unicode
မြန်မာဘာသာ: ယူနီကုဒ်
Plattdüütsch: Unicode
नेपाली: युनिकोड
नेपाल भाषा: युनिकोड
Nederlands: Unicode
norsk nynorsk: Unicode
norsk: Unicode
occitan: Unicode
ਪੰਜਾਬੀ: ਯੂਨੀਕੋਡ
polski: Unikod
português: Unicode
română: Unicode
русский: Юникод
संस्कृतम्: युनिकोड
саха тыла: Юникод
Scots: Unicode
srpskohrvatski / српскохрватски: Unikod
සිංහල: යුනිකෝඩ්
Simple English: Unicode
slovenčina: Unicode
slovenščina: Unicode
shqip: Unicode
српски / srpski: Unikod
Basa Sunda: Unicode
svenska: Unicode
తెలుగు: యూనికోడ్
тоҷикӣ: Юникод
Tagalog: Unikodigo
Türkçe: Unicode
ئۇيغۇرچە / Uyghurche: Unicode
українська: Юнікод
اردو: یونیکوڈ
Tiếng Việt: Unicode
walon: Unicôde
吴语: Unicode
მარგალური: იუნიკოდი
ייִדיש: יוניקאד
Yorùbá: Unicode
中文: Unicode
Bân-lâm-gú: Unicode
粵語: 統一碼