ယူနီကုဒ်

မြန်မာ အတွက် မြန်မာ ယူနီကုဒ် ကို ကြည့်ပါ။
ယူနီကုဒ် စံစနစ် ဗားရှင်း ၅.၀

ကွန်ပျူတာတွင် ယူနီကုဒ်သည် ကမ္ဘာပေါ်ရှိ စာရေးစနစ် (writting system) အားလုံးနီးပါး ပါရှိပြီး ကွန်ပျူတာများနှင့် လိုက်ရောညီထွေ ရှိစေရေးအတွက် သက်မှတ်ထားသော စက်မှုစံ (industry standard) တစ်ခုဖြစ်သည်။ Universal Character Set စံနှင့်အတူ ယူနီကုဒ်စံသည် အက္ခရာပေါင်း ၁၀၀ ၀၀၀ ကျော်ပါသော စာအုပ် ထုတ်ဝေခဲ့သည်။ ထိုစံစာအုပ်တွင် ကိုးကားရန် ဇယားများ၊ encoding နည်းစဉ်များ၊ character encoding စံများ၊ အက္ခရာ၏ သဘောသဘာဝများ (ဥပမာ စာလုံးကြီး၊ စာလုံးသေး)၊ အထောက်အကူပြု computer file များ၊ အခြား သက်ဆိုင်ရာများ (အက္ခရာသဘော၊ normalization ဥပဒေ၊ ခွဲခြင်း၊ ပေါင်းခြင်း၊ rendering နှင် နှစ်ဖက်သွား စာများ၏ အစဉ်၊ ဘယ်ညာ သဘောများ၊ စသည့်) ပါရှိသည်။ [၁]

အမြတ်မယူ အသင်းအဖွဲ့ ဖြစ်သော Unicode Consortium သည် ယူနီကုဒ် ရှင်သန်တိုးတက်ရေးအတွက် ကြိုးစားမှုတွင် ရှိပြီး character encoding အားလုံးကို ယူနီကုဒ် ဖြင့်အစားထိုးသွားရန် ရည်ရွယ်သည်။ ယူနီကုဒ် ၏ Unicode Transformation Format (UTF) scheme များတွင် ရှိပြီး encoding နည်းများသည် ဘာသာစုံ (multilingual) အတွက် လိုအပ်လျက်ရှိသည်။

ဘာသာစုံ ပါဝင်သော ယူနီကုဒ် ၏ အောင်မြင်မှုကြောင့် computer software ကို internationalization and localization လုပ်ရာတွင် များစွာ အသုံးချလျက်ရှိသည်။ ယူနီကုဒ်စံစနစ်ကို ယခု ပေါ်ပေါက်နေသော XML၊ Java programming language၊ Microsoft .NET Framework နှင့် ခေတ်ပေါ် Operating System များတွင် အသုံးချလျက်ရှိသည်။

ယူနီကုဒ်စံစနစ်ကို အသုံးပြုရာတွင် character encoding မျိုးစုံ အသုံးပြုနိုင်သည်။ အသုံးအများဆုံးမှာ UTF-8 (1 byte ကို ASCII အက္ခရာ အတွက် နှင့် ၄ byte အထိ ကျန် နေများကို အခြား အက္ခရာ အတွက်)၊ မသုံးတော့သော UCS-2 (2 bytes ကို အက္ခရာ အားလုံးအတွက် သို့သော် ယူနီကုဒ် အက္ခရာ အားလုံးမပါ) နှင့် UTF-16 (၄ bytes သုံးပြီး UCS-2 ကို ထက်ဆင့်၍ ကျန်ရှိနေသေးသော ယူနီကုဒ် အက္ခရာ များကို ထည့်သွင်း) ဖြစ်ကြသည်။

အစဦး နှင့် တိုးတက်ပြောင်းလဲခြင်း

ယူနီကုဒ်သည် ရှေးရိုး သုံးလာခဲ့ကြသော စာလုံး သိမ်းဆည်းပုံ (character encoding) များ၊ ISO 8859 စံ များ ကို ကျယ်ကျယ်ပြန့်ပြန့် သတ်မှတ်လိုသည်။ ISO 8859 စံ သည် နိုင်ငံပေါင်းများစွာ၏ အသုံးအနှုန်းများ ကို သတ်မှတ်နိုင်ခဲ့သော်လည်း တစ်ခုနှင့်တစ်ခု ပြောင်းလဲ၍ (incompatible) သုံးနှုန်းမရပေ။ များစွာသော ရှေးရိုးရာ စာလုံး သိမ်းဆည်းပုံ၏ တွေ့နေကျ ပြသနာမှာ ဘာသာနှစ်မျိုး ရရန် ပြုလုပ်ခြင်း (များသောအားဖြင့် Roman characters နှင် ဒေသစာ) တွင် ဘာသာမျိုးစုံ အတွက်မပါပေ။

ယူနီကုဒ်သည် သဘောအားဖြင့် စာလုံးပုံ (glyph) များကို ထက် အခြေခံ စာလုံး (character) များ — graphemes and grapheme-like units — ကို သိမ်းဆည်းထားသည်။ တရုတ်စာတွင် အခြေခံ စာလုံး နှင် စာလုံးပုံ တို့ကိုခွဲခြားရန် ခက်ခဲသည်။

စာစီ၊ စာရိုက်ခြင်း (text processing) တွင် ယူနီကုဒ်သည် စာလုံးတိုင်းအတွက် အတုမရှိသော စာခွက် (code point) — စာလုံးပုံ အစား နံပါတ်တစ်ခု — ရှိရေး တာဝန်ယူသည်။ တစ်နည်းအားဖြင့် ယူနီကုဒ်သည် စာလုံးများကို မူရင်းသဘာဝ (an abstract way) ကိုကိုယ်စားပြုပြီး ပုံဖော်ရန် အတွက်ကိုမူ (အရွယ်၊ ပုံ၊ ဖောင့် (သို့) သဏ္ဌာန်) software (web browser, word processor) ၏တာဝန်အဖြစ် ချန်ထားခဲ့သည်။ ထိုမျှရှင်းလင်းသော ကြိုးစားမှုပင် ရှုပ်ထွေးရသော အကြောင်းမှာ ယူနီကုဒ် ဒီဇိုင်းပြုသူများ ယူနီကုဒ် ကျယ်ပြန့်စွာ အသုံးပြုရေး ကြိုးပမ်းမှုတွင် သဘောတူညီမှု မရနိုင်ခြင်းတို့ကြောင့်ဖြစ်သည်။

ယူနီကုဒ်၏ ပဋ္ဌမ ၂၅၆ လုံးမှာ ISO 8859-1 နှင့် တူသောကြောင့် ရှိပြီး အနောက်နိုင်ငံမှ စာများအတွက် အခက်အခဲ မရှိပေ။ များစွာသော အတူတူ စာလုံးများကို မတူသော စာခွက်များတွင် သတ်မှတ်ခြင်းမှာ ရှိပြီး စာလုံး သိမ်းဆည်းပုံ နှင့် အဆင်ပြေစေရန် ဖြစ်သည်။ ထို့ကြောင့် ရှိပြီးစာ များမှ ယူနီကုဒ်ကို ပြောင်းရာတွင် မှားယွင်းမှု မရှိနိုင်ပေ။

သမိုင်း

ယူနီကုဒ် သမိုင်းကို ၁၉၈၇ ခု Xerox မှ Joe Becker နှင့် Apple မှ Lee Collins and Mark Davis တို့က အပြည်ပြည်ဆိုင်ရာ စာလုံး စနစ် ဖြစ်နိုင်ခြေကို စတင် စူးစမ်းခဲ့သည်။ [၂] ထိုနှစ် ဩဂုတ်လတွင် Joe Becker သည် "international/multilingual text character encoding system, tentatively called Unicode." စာတမ်းကို ထုတ်ဝေခဲ့သည်။ Unicode 88 ခေါင်းစဉ်ရှိသော ထိုစာတန်း၏ ၁၆ ဘစ် (bit) အခြေပြု စာလုံး မိုဒယ်တွင်

Unicode is intended to address the need for a workable, reliable world text encoding. Unicode could be roughly described as "wide-body ASCII" that has been stretched to 16 bits to encompass the characters of all the world's living languages. In a properly engineered design, 16 bits per character are more than sufficient for this purpose.

ဟုဖေါ်ပြခဲ့သည်။ မူလ ၁၆ ဘစ် (bit) အခြေပြု စာလုံး မိုဒယ်သည် ယခု သုံးစွဲနေသော စာရေးစနစ် များကိုသာ စဉ်းစားခဲ့သည်။ သို့သော် ယခုသုံးနေသော စာလုံးများမှာ

Unicode gives higher priority to ensuring utility for the future than to preserving past antiquities. Unicode aims in the first instance at the characters published in modern text (e.g. in the union of all newspapers and magazines printed in the world in 1988), whose number is undoubtedly far below 214 = 16,384. Beyond those modern-use characters, all others may be defined to be obsolete or rare; these are better candidates for private-use registration than for congesting the public list of generally-useful Unicodes.

ဟု သုံးသပ်ခဲ့သည်။ ဆိုလိုသည်မှာ ရှေးစာနှင့် အသုံးများသော စာလုံးများပါ ယူနီကုဒ်တွင် ပါဝင်ရန်လိုအပ်သည်။

Other Languages
Afrikaans: Unicode
Alemannisch: Unicode
አማርኛ: ዩኒኮድ
العربية: يونيكود
অসমীয়া: ইউনিক’ড
azərbaycanca: Unicode
Boarisch: Unicode
беларуская: Унікод
беларуская (тарашкевіца)‎: Юнікод
български: Уникод
বাংলা: ইউনিকোড
brezhoneg: Unicode
bosanski: Unicode
català: Unicode
ᏣᎳᎩ: ᏳᏂᎪᏛ
کوردی: یوونیکۆد
čeština: Unicode
Чӑвашла: Юникод
Cymraeg: Unicode
dansk: Unicode
Deutsch: Unicode
Ελληνικά: Γιούνικοντ
English: Unicode
Esperanto: Unikodo
español: Unicode
eesti: Unicode
euskara: Unicode
فارسی: یونی‌کد
suomi: Unicode
français: Unicode
Gaeilge: Unicode
galego: Unicode
ગુજરાતી: યુનિકોડ
עברית: יוניקוד
हिन्दी: यूनिकोड
hrvatski: Unikod
magyar: Unicode
Հայերեն: Յունիկոդ
interlingua: Unicode
Bahasa Indonesia: Unicode
Ilokano: Unicode
íslenska: Unicode
italiano: Unicode
日本語: Unicode
Basa Jawa: Unicode
ქართული: უნიკოდი
қазақша: Юникод
ಕನ್ನಡ: ಯುನಿಕೋಡ್
한국어: 유니코드
कॉशुर / کٲشُر: यूनिकोड
Kurdî: Unicode
Кыргызча: Юникод
lietuvių: Unikodas
latviešu: Unikods
олык марий: Unicode
മലയാളം: യൂണികോഡ്
монгол: Юникод
मराठी: युनिकोड
Bahasa Melayu: Unicode
Plattdüütsch: Unicode
नेपाली: युनिकोड
नेपाल भाषा: युनिकोड
Nederlands: Unicode
norsk nynorsk: Unicode
norsk: Unicode
occitan: Unicode
ਪੰਜਾਬੀ: ਯੂਨੀਕੋਡ
polski: Unikod
português: Unicode
română: Unicode
русский: Юникод
संस्कृतम्: युनिकोड
саха тыла: Юникод
Scots: Unicode
srpskohrvatski / српскохрватски: Unikod
සිංහල: යුනිකෝඩ්
Simple English: Unicode
slovenčina: Unicode
slovenščina: Unicode
shqip: Unicode
српски / srpski: Unikod
Basa Sunda: Unicode
svenska: Unicode
తెలుగు: యూనికోడ్
тоҷикӣ: Юникод
Tagalog: Unikodigo
Türkçe: Unicode
ئۇيغۇرچە / Uyghurche: Unicode
українська: Юнікод
اردو: یونیکوڈ
Tiếng Việt: Unicode
walon: Unicôde
吴语: Unicode
მარგალური: იუნიკოდი
ייִדיש: יוניקאד
Yorùbá: Unicode
中文: Unicode
Bân-lâm-gú: Unicode
粵語: 統一碼