Unicode

Logo for The Unicode Consortium

Unicode er i digital sammenhæng en konventionel betegnelse for de almindeligt udbredte tegnsæt UTF-8, UTF-16, UTF-32 og eventuelt også ISO-10646. Disse tegnsæt har som kendetegn at være dels helt sammenfaldende og dels meget omfattende, idet de omfatter de fleste både nuværende og historiske skriftsprog og såvel supplerende skrifttegn såsom de der bruges i IPA notation, node notation og algebraisk notation. I dag (2015) er mere end 120.000 skrifttegn omfattet ( ISO 2014, Introduction).

Unicodes oprindelse

I 1993 publicerede International Standards Organisation (ISO) et tegnsæt, ISO/IEC 10646, hvori defineredes et Universal Multiple-Octet Coded Character Set ofte forkortet Universal Character Set eller UCS.

(..)UCS har som formål at tilvejebringe et enkelt (eneste) kodet tegnsæt for [den digitale transkription] af den skriftlige form af alle verdens sprog og en lang række øvrige symboler der måtte bruges i sammenhæng med disse sprog. Det er hensigten ikke kun at omfatte sprog af i dag, men også fortidens sprog og de tilføjelser som findes nødvendige i fremtiden. ( CEN 1999, Origins and aims of the UCS) [1]

UTF-8

Samme år opfandt Ken Thompson en metode hvorved UCS kunne implementeres på Unix-platformen: File system safe UCS transformation format (FSS/UTF), i kort tid kendt som UTF-2 og senere omdøbt til UTF-8. Dette engagement var primært praktisk, og blev realiseret på den - ikke ret brugte - Plan 9-platform ( Kuhn 2009, Who invented UTF-8?). Ken Thompsons indsats var til dels også ansporet af den interesse som UCS ideen tiltrak fra ledende parter i computer-industrien, fokuseret i X/Open Joint Internationalization Group med repræsentation af eksempelvis IBM. Xerox og Apple havde årene forinden initieret The Unicode Consortium ( Unicode 2015). I 1996 publicerede ISO deres overensstemmende specifikation af UTF-8. Ligeledes i 1996 kom RFC-2044, publiceret af IEEE, der også beskrev UTF-8.

Organisationerne The Unicode Consortium og ISO (ved arbejdsgruppen JTC1/SC2/WG2), startede deres virke i slutningen af 1980'erne. Det er disse organisationer der vedligeholder UCS. I dag koordineres deres research og publikationer for at undgå uoverenstemmelser i Unicode-formatet - specielt for at undgå uoverenstemmelser i det faktiske tegnsæt der menes omfattet.

Andre sprog
Afrikaans: Unicode
Alemannisch: Unicode
አማርኛ: ዩኒኮድ
العربية: يونيكود
অসমীয়া: ইউনিক’ড
azərbaycanca: Unicode
Boarisch: Unicode
беларуская: Унікод
беларуская (тарашкевіца)‎: Юнікод
български: Уникод
বাংলা: ইউনিকোড
brezhoneg: Unicode
bosanski: Unicode
català: Unicode
ᏣᎳᎩ: ᏳᏂᎪᏛ
کوردی: یوونیکۆد
čeština: Unicode
Чӑвашла: Юникод
Cymraeg: Unicode
Deutsch: Unicode
Ελληνικά: Γιούνικοντ
English: Unicode
Esperanto: Unikodo
español: Unicode
eesti: Unicode
euskara: Unicode
فارسی: یونی‌کد
suomi: Unicode
français: Unicode
Gaeilge: Unicode
galego: Unicode
ગુજરાતી: યુનિકોડ
עברית: יוניקוד
हिन्दी: यूनिकोड
hrvatski: Unikod
magyar: Unicode
Հայերեն: Յունիկոդ
interlingua: Unicode
Bahasa Indonesia: Unicode
Ilokano: Unicode
íslenska: Unicode
italiano: Unicode
日本語: Unicode
Basa Jawa: Unicode
ქართული: უნიკოდი
қазақша: Юникод
ಕನ್ನಡ: ಯುನಿಕೋಡ್
한국어: 유니코드
कॉशुर / کٲشُر: यूनिकोड
Kurdî: Unicode
Кыргызча: Юникод
lietuvių: Unikodas
latviešu: Unikods
олык марий: Unicode
മലയാളം: യൂണികോഡ്
монгол: Юникод
मराठी: युनिकोड
Bahasa Melayu: Unicode
မြန်မာဘာသာ: ယူနီကုဒ်
Plattdüütsch: Unicode
नेपाली: युनिकोड
नेपाल भाषा: युनिकोड
Nederlands: Unicode
norsk nynorsk: Unicode
norsk: Unicode
occitan: Unicode
ਪੰਜਾਬੀ: ਯੂਨੀਕੋਡ
polski: Unikod
português: Unicode
română: Unicode
русский: Юникод
संस्कृतम्: युनिकोड
саха тыла: Юникод
Scots: Unicode
srpskohrvatski / српскохрватски: Unikod
සිංහල: යුනිකෝඩ්
Simple English: Unicode
slovenčina: Unicode
slovenščina: Unicode
shqip: Unicode
српски / srpski: Unikod
Basa Sunda: Unicode
svenska: Unicode
తెలుగు: యూనికోడ్
тоҷикӣ: Юникод
Tagalog: Unikodigo
Türkçe: Unicode
ئۇيغۇرچە / Uyghurche: Unicode
українська: Юнікод
اردو: یونیکوڈ
Tiếng Việt: Unicode
walon: Unicôde
吴语: Unicode
მარგალური: იუნიკოდი
ייִדיש: יוניקאד
Yorùbá: Unicode
中文: Unicode
Bân-lâm-gú: Unicode
粵語: 統一碼