Unicode

Unicode ialah piawaian industri yang membolehkan komputer untuk melambangkan dan memanipulasi teks yang diekspresikan dalam mana-mana sistem tulisan di dunia secara konsisten. Unicode yang dibangunkan seiringan dengan piawaian Set Aksara Universal dan diterbit dalam bentuk buku sebagai The Unicode Standard, Unicode terdiri daripada himpunan kira-kira 100,000 [1] aksara, satu set carta kod bagi rujukan visual, kaedah pengekodan dan set pengekodan aksara piawai, penyebutan ciri-ciri aksara seperti huruf besar atau kecil, satu set fail komputer data rujukan, dan peraturan untuk penyeragaman, penguraian, pengumpulsemakan dan pengemukaan aksara.

Konsortium Unicode, sebuah pertubuhan bukan untung yang menyelaras pembangunan Unicode, memegang cita-cita untuk menggantikan skema pengekodan aksara sedia ada dengan Unicode dan skema-skema Unicode Transformation Format (UTF) piawainya, kerana kebanyakan skema pengekodan sedia ada terhad saiz dan skopnya serta tidak serasi dengan persekitaran pelbagai bahasa. Kejayaan Unicode dalam menyatukan set-set aksara telah mencetuskan penggunakan meluas dan dominan dalam pengantarabangsaan dan penyetempatan perisian komputer. Piawaian ini telah dilaksanakan dalam banyak hasil teknologi terkini, termasuk XML, Java dan sistem pengendalian moden.

Asal-usul dan pembangunan

Unicode jelasnya bertujuan mencecah had-had pengekodan aksara tradisional, seperti yang didefinasikan dalam piawaian ISO 8859 yang didapati luas penggunaannya di pelbagai negaa di dunia tetapi masih amat tidak serasi dengan satu sama lain. Kebanyakan pengekodan aksara tradisional berkongsi satu masalah utama yang mana pemprosesan komputer dwibahasa dibenarkan (lazimnya menggunakan huruf rumi dan bahasa tempatan) tetapi tidak pula pemprosesan komputer berbilang bahasa (pemprosesan komputer sembarangan bahasa yang dicampur aduk dengan satu sama lain).

Unicode diniatkan untuk mengekod aksara asasnya — grafem dan unit seakan-akan grafem — dan bukannya pelbagai glif (pengemukaan) bagi aksara sedemikian. Mengenai aksara Cina, kadang-kadang ini menyebabkan kontroversi mengenai membezakan aksara asas dari pelbagai glifnya (lihat penyatuan Han).

Dalam pemprosesan teks, Unicode memainkan peranan membekalkan titik kod (code point) yang unik — nombor, bukan glif — bagi setiap satu aksara. dalam erti kata lain, Unicode melambangkan sesuatu aksara secara abstrak lalu menyerahkan pengemukaan visual (saiz, bentuk, fon atau gaya) kepada perisian lain, seperti pelayar web atau pemproses kata. Namun begitu, sasaran mudah ini bertambah rumit akibat konsesi yang dilakukan oleh pereka-pereka Unicode dengan harapan mempercepatkan pengambilan Unicode.

256 titik kod yang pertama dijadikan seiras kepada kandungan ISO 8859-1 agar menjadikannya tidak penting untuk menukarkan teks Barat yang sedia ada. Banyak aksara yang seiras secara pokoknya telah dikodkan banyak kali di titik kod berbeza untuk mengekalkan pembezaan yang dipakai oleh pengekodan terdahulu, maka membenarkan penukaran dari pengekodan tersebut ke Unicode secara ulang alik tanpa keciciran apa-apa maklumat. Contohnya, seksyen titik kod " bentuk lebar penuh" merangkumi abjad rumi penuh yang berasingan daripada seksyen abjad rumi utama. Dalam fon bahasa Cina, Jepun dan Korea ( CJK), aksara-aksara ini dikemukakan pada lebar yang sama seperti ideograf CJK dan bukannya separuh lebar. Bagi contoh lain, lihat Aksara pendua di Unicode.

Selain itu, sementara membolehkan penggabungan aksara Unicode juga mengandungi versi pragubah bagi kebanyakan kombinasi huruf/diakritik dalam kegunaan seharian. ini memudahkan lagi penukaran ulang alik dari pengekodan terdahulu serta membolehkan aplikasi untuk menggunakan Unicode sebagai format teks dalaman tanpa perlu melaksanakan aksara gabungan. Contohnya é boleh diwakili di Unicode sebagai U+0065 (Latin small letter e) diikuti U+0301 (combining acute) tetapi boleh juga diwakili dengan aksara pragubah U+00E9 (Latin small letter e with acute).

Piawaian Unicode juga merangkumi sebilangan butiran berkaitan, seperti ciri-ciri aksara, penyeragaman bentuk teks dan susunan paparan dwiarah (bagi pemaparan sempurna bagi teks yang mengandungi kedua-dua skrip kanan-ke-kiri, seperti bahasa Arab atau Ibrani, serta skrip kiri-ke-kanan).

Bahasa lain
Afrikaans: Unicode
Alemannisch: Unicode
አማርኛ: ዩኒኮድ
العربية: يونيكود
অসমীয়া: ইউনিক’ড
asturianu: Unicode
azərbaycanca: Unicode
Bahasa Indonesia: Unicode
বাংলা: ইউনিকোড
Bân-lâm-gú: Unicode
Basa Jawa: Unicode
Basa Sunda: Unicode
беларуская: Унікод
беларуская (тарашкевіца)‎: Юнікод
Boarisch: Unicode
bosanski: Unicode
brezhoneg: Unicode
български: Уникод
català: Unicode
Чӑвашла: Юникод
čeština: Unicode
Cymraeg: Unicode
dansk: Unicode
Deutsch: Unicode
eesti: Unicode
Ελληνικά: Γιούνικοντ
English: Unicode
español: Unicode
Esperanto: Unikodo
euskara: Unicode
فارسی: یونی‌کد
français: Unicode
Gaeilge: Unicode
galego: Unicode
ગુજરાતી: યુનિકોડ
한국어: 유니코드
Հայերեն: Յունիկոդ
हिन्दी: यूनिकोड
hrvatski: Unikod
Ilokano: Unicode
interlingua: Unicode
íslenska: Unicode
italiano: Unicode
עברית: יוניקוד
ಕನ್ನಡ: ಯುನಿಕೋಡ್
ქართული: უნიკოდი
कॉशुर / کٲشُر: यूनिकोड
қазақша: Юникод
Кыргызча: Юникод
Kurdî: Unicode
latviešu: Unikods
lietuvių: Unikodas
magyar: Unicode
മലയാളം: യൂണികോഡ്
मराठी: युनिकोड
მარგალური: იუნიკოდი
монгол: Юникод
မြန်မာဘာသာ: ယူနီကုဒ်
Nederlands: Unicode
नेपाली: युनिकोड
नेपाल भाषा: युनिकोड
日本語: Unicode
norsk: Unicode
norsk nynorsk: Unicode
occitan: Unicode
олык марий: Unicode
ਪੰਜਾਬੀ: ਯੂਨੀਕੋਡ
Plattdüütsch: Unicode
polski: Unikod
português: Unicode
română: Unicode
русский: Юникод
саха тыла: Юникод
संस्कृतम्: युनिकोड
Scots: Unicode
shqip: Unicode
සිංහල: යුනිකෝඩ්
Simple English: Unicode
slovenčina: Unicode
slovenščina: Unicode
کوردی: یوونیکۆد
српски / srpski: Unikod
srpskohrvatski / српскохрватски: Unikod
suomi: Unicode
svenska: Unicode
Tagalog: Unikodigo
తెలుగు: యూనికోడ్
Tiếng Việt: Unicode
тоҷикӣ: Юникод
ᏣᎳᎩ: ᏳᏂᎪᏛ
Türkçe: Unicode
українська: Юнікод
اردو: یونیکوڈ
ئۇيغۇرچە / Uyghurche: Unicode
walon: Unicôde
吴语: Unicode
ייִדיש: יוניקאד
Yorùbá: Unicode
粵語: 統一碼
中文: Unicode