ยูนิโคด

The Unicode Standard, Version 5.0
อักขระยูนิโคดทั้งหมดเมื่อพิมพ์ลงกระดาษ (รวมทั้งสองแผ่น)

ยูนิโคด ( อังกฤษ: Unicode) คือ มาตรฐานอุตสาหกรรมที่ช่วยให้ คอมพิวเตอร์แสดงผลและจัดการ ข้อความธรรมดาที่ใช้ใน ระบบการเขียนของ ภาษาส่วนใหญ่ในโลกได้อย่างสอดคล้องกัน ยูนิโคดประกอบด้วยรายการ อักขระที่แสดงผลได้มากกว่า 100,000 ตัว พัฒนาต่อยอดมาจากมาตรฐาน ชุดอักขระสากล (Universal Character Set: UCS) และมีการตีพิมพ์ลงในหนังสือ The Unicode Standard เป็นแผนผังรหัสเพื่อใช้เป็นรายการอ้างอิง นอกจากนั้นยังมีการอธิบายวิธีการที่ใช้เข้ารหัสและการนำเสนอมาตรฐานของ การเข้ารหัสอักขระอีกจำนวนหนึ่ง การเรียงลำดับอักษร กฎเกณฑ์ของการรวมและการแยกอักขระ รวมไปถึงลำดับการแสดงผลของอักขระสองทิศทาง (เช่น อักษรอาหรับหรือ อักษรฮีบรูที่เขียนจากขวาไปซ้าย) [1]

ยูนิโคดคอนซอร์เทียม (Unicode Consortium) ซึ่งเป็น องค์กรไม่แสวงหาผลกำไร เป็นผู้รับผิดชอบในการพัฒนายูนิโคด องค์กรนี้มีจุดมุ่งหมายเกี่ยวกับการแทนที่การเข้ารหัสอักขระที่มีอยู่ด้วยยูนิโคดและมาตรฐานรูปแบบการแปลงยูนิโคด (Unicode Transformation Format: UTF) แต่ก็เป็นที่ยุ่งยากเนื่องจากแผนการที่มีอยู่ถูกจำกัดไว้ด้วยขนาดและขอบเขต ซึ่งอาจไม่รองรับกับสภาพแวดล้อมหลายภาษาในคอมพิวเตอร์

ความสำเร็จของยูนิโคดคือการรวมรหัสอักขระหลายชนิดให้เป็นหนึ่งเดียว นำไปสู่การใช้งานอย่างกว้างขวางและมีอิทธิพลต่อการแปลภาษาของ ซอฟต์แวร์คอมพิวเตอร์ นั่นคือโปรแกรมจะสามารถใช้ได้หลายภาษา มาตรฐานนี้มีการนำไปใช้เป็นเทคโนโลยีหลักหลายอย่าง อาทิ เอกซ์เอ็มแอล ภาษาจาวา ดอตเน็ตเฟรมเวิร์ก และ ระบบปฏิบัติการสมัยใหม่

ยูนิโคดสามารถนำไปใช้งานได้ด้วยชุดอักขระแบบต่าง ๆ ชุดอักขระที่เป็นที่รู้จักมากที่สุดคือ UTF-8 (ใช้ 1 ไบต์สำหรับอักขระทุกตัวในรหัส แอสกีและมีค่ารหัสเหมือนกับมาตรฐานแอสกี หรือมากกว่านั้นจนถึง 4 ไบต์สำหรับอักขระแบบอื่น) UCS-2 ซึ่งปัจจุบันเลิกใช้แล้ว (ใช้ 2 ไบต์สำหรับอักขระทุกตัว แต่ไม่ครอบคลุมอักขระทั้งหมดในยูนิโคด) และ UTF-16 (เป็นส่วนขยายจาก UCS-2 โดยใช้ 4 ไบต์ยนร่ืุ้้้ สำหรับแทนรหัสอักขระที่ขาดไปของ UCS-2)

{{cleพรร่แี

นงสสสสาสาเาไนากฝ ar}}

รุ่นยูนิโคด

รุ่น วันที่ หนังสือ ความสอดคล้องกับ
ชุดอักขระสากล
(ISO/IEC 10646)
ชุดอักษร อักขระ
จำนวน การเพิ่มเติมที่สำคัญ
1.0.0 ตุลาคม พ.ศ. 2534 ISBN 0-201-56788-1 (Vol.1) 24 7,161 เริ่มต้นด้วยอักษรเหล่านี้: อาหรับ, อาร์มีเนีย, เบงกาลี, ปอพอมอฟอ, ซีริลลิก, เทวนาครี, จอร์เจีย, กรีกและคอปติก, คุชราต, คุรมุขี, ฮันกึล, ฮีบรู, ฮิระงะนะ, กันนาดา, คะตะคะนะ, ลาว, ละติน, มาลายาลัม, โอริยา, ทมิฬ, เตลูกู, ไทย และ ทิเบต [2]
1.0.1 มิถุนายน พ.ศ. 2535 ISBN 0-201-60845-6 (Vol.2) 25 28,359 เริ่มมี อักษรภาพรวมจีนญี่ปุ่นเกาหลี (CJK Unified Ideographs) 20,902 ตัว [3]
1.1 มิถุนายน พ.ศ. 2536 ISO/IEC 10646-1:1993 24 34,233 เพิ่ม พยางค์ฮันกึลลงไปอีก 4,306 ตัว จากชุดเดิม 2,350 ตัว และอักษรทิเบตถูกเอาออก [4]
2.0 กรกฎาคม พ.ศ. 2539 ISBN 0-201-48345-9 ISO/IEC 10646-1:1993 เพิ่มข้อแก้ไขที่ 5, 6, 7 25 38,950 พยางค์ฮันกึลชุดเดิมถูกเอาออก แล้วเพิ่มพยางค์ฮันกึลชุดใหม่ 11,619 ตัวในตำแหน่งใหม่ อักษรทิเบตเพิ่มกลับเข้ามาที่ตำแหน่งใหม่พร้อมกับเปลี่ยนแปลงอักขระบางตัว กลไก อักขระทดแทน (surrogate) ได้ถูกนิยามขึ้น และมีการกำหนดให้เพลน 15 และเพลน 16 เป็น พื้นที่ใช้งานส่วนตัว (Private Use Areas) [5]
2.1 พฤษภาคม พ.ศ. 2541 ISO/IEC 10646-1:1993 เพิ่มข้อแก้ไขที่ 5, 6, 7 และอักขระสองตัวจากข้อแก้ไขที่ 18 25 38,952 เครื่องหมาย ยูโรถูกเพิ่มเข้ามา [6]
3.0 กันยายน พ.ศ. 2542 ISBN 0-201-61633-5 ISO/IEC 10646-1:2000 38 49,259 เชอโรกี, เอธิโอเปีย, เขมร, มองโกเลีย, พม่า, โอคัม, รูนส์, สิงหล, ซีเรียค, ทานา, Unified Canadian Aboriginal Syllabics และ อี้ เพิ่มเข้ามา เช่นเดียวกับรูปแบบ อักษรเบรลล์ [7]
3.1 มีนาคม พ.ศ. 2544 ISO/IEC 10646-1:2000

ISO/IEC 10646-2:2001

41 94,205 เดเซเรท, โกธิก และ อิตาลีโบราณ เพิ่มเข้ามา พร้อมกับ สัญลักษณ์ทางดนตรีสมัยใหม่และ ดนตรีไบแซนไทน์ และเพิ่มอักษรภาพรวมจีนญี่ปุ่นเกาหลีอีก 42,711 ตัว [8]
3.2 มีนาคม พ.ศ. 2545 ISO/IEC 10646-1:2000 เพิ่มข้อแก้ไขที่ 1

ISO/IEC 10646-2:2001

45 95,221 เพิ่มอักษรที่ใช้ใน ฟิลิปปินส์: บูฮิด, ฮานูโนโอ, บายบายิน และ ตักบันวา [9]
4.0 เมษายน พ.ศ. 2546 ISBN 0-321-18578-1 ISO/IEC 10646:2003 52 96,447 ไซปรัส, ลิมบู, ไลเนียร์บี, ออสมันยา, ชาเวียน, ไทใต้คง และ ยูการิติก เพิ่มเข้ามาพร้อมกับ แผนภูมิหกชั้นของ อี้จิง [10]
4.1 มีนาคม พ.ศ. 2548 ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1 59 97,720 ลนตารา, กลาโกลิติก, ขโรษฐี, ไทลื้อใหม่, Old Persian, สิเลฏินาครี และ ทิฟินาค เพิ่มเข้ามา และ คอปติกในรูปแบบที่ต่างจาก อักษรกรีก เลขกรีกโบราณและสัญลักษณ์ทางดนตรีเพิ่มเข้ามาด้วย [11]
5.0 กรกฎาคม พ.ศ. 2549 ISBN 0-321-48091-0 ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1, 2 และอักขระสี่ตัวจากข้อแก้ไขที่ 3 64 99,089 บาหลี, คูนิฟอร์ม, อึนโก, พักส์-ปา และ ฟินิเชีย เพิ่มเข้ามา [12]
5.1 เมษายน พ.ศ. 2551 ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1, 2, 3, 4 75 100,713 คาเรีย, จาม, กะยา, เลปชา, ไลเซีย, ไลเดีย, Ol Chiki, เรชัง, ศารทา, ซุนดา และ ไว เพิ่มเข้ามา เช่นเดียวกับกลุ่มสัญลักษณ์ Phaistos Disc, หน้า ไพ่นกกระจอก และหน้า โดมิโน เพิ่มเติมอักษรที่สำคัญสำหรับ อักษรพม่า, additions of letters and Scribal abbreviations used in medieval manuscripts, and the addition of capital ß. [13]
5.2 ตุลาคม พ.ศ. 2552 ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1, 2, 3, 4, 5, 6 90 107,361 อเวสตะ, บามุม, ไฮโรกลิฟฟิก (the Gardiner Set, comprising 1,071 characters), Imperial Aramaic, Inscriptional Pahlavi, Inscriptional Parthian, ชวา, ไกถิ, ลีสู่, ไมไตมาเยก, Old South Arabian, Old Turkic, Samaritan, ไทธรรม and ไทเวียด added. เพิ่มอักษรภาพรวมจีนญี่ปุ่นเกาหลีอีก 4,149 ตัว (CJK-C), เช่นเดียวกับจาโมส่วนขยายของ อักษรฮันกึลโบราณ และอักขระสำหรับ อักษรพระเวท [14]
6.0 ตุลาคม พ.ศ. 2553 ISO/IEC 10646:2010 เพิ่มเครื่องหมายสกุลเงิน รูปีอินเดีย 93 109,449 บาตัก, พราหมี, มันดาอิก, สัญลักษณ์หน้า ไพ่ป๊อก, สัญลักษณ์ จราจรและ แผนที่, สัญลักษณ์ การเล่นแร่แปรธาตุ, อีโมติคอน และ อีโมจิ [15]
ภาษาอื่น ๆ
Afrikaans: Unicode
Alemannisch: Unicode
አማርኛ: ዩኒኮድ
العربية: يونيكود
অসমীয়া: ইউনিক’ড
asturianu: Unicode
azərbaycanca: Unicode
Boarisch: Unicode
беларуская: Унікод
беларуская (тарашкевіца)‎: Юнікод
български: Уникод
বাংলা: ইউনিকোড
brezhoneg: Unicode
bosanski: Unicode
català: Unicode
ᏣᎳᎩ: ᏳᏂᎪᏛ
کوردی: یوونیکۆد
čeština: Unicode
Чӑвашла: Юникод
Cymraeg: Unicode
dansk: Unicode
Deutsch: Unicode
Ελληνικά: Γιούνικοντ
English: Unicode
Esperanto: Unikodo
español: Unicode
eesti: Unicode
euskara: Unicode
فارسی: یونی‌کد
suomi: Unicode
français: Unicode
Gaeilge: Unicode
galego: Unicode
ગુજરાતી: યુનિકોડ
עברית: יוניקוד
हिन्दी: यूनिकोड
hrvatski: Unikod
magyar: Unicode
Հայերեն: Յունիկոդ
interlingua: Unicode
Bahasa Indonesia: Unicode
Ilokano: Unicode
íslenska: Unicode
italiano: Unicode
日本語: Unicode
Basa Jawa: Unicode
ქართული: უნიკოდი
қазақша: Юникод
ಕನ್ನಡ: ಯುನಿಕೋಡ್
한국어: 유니코드
कॉशुर / کٲشُر: यूनिकोड
Kurdî: Unicode
Кыргызча: Юникод
lietuvių: Unikodas
latviešu: Unikods
олык марий: Unicode
മലയാളം: യൂണികോഡ്
монгол: Юникод
मराठी: युनिकोड
Bahasa Melayu: Unicode
မြန်မာဘာသာ: ယူနီကုဒ်
Plattdüütsch: Unicode
नेपाली: युनिकोड
नेपाल भाषा: युनिकोड
Nederlands: Unicode
norsk nynorsk: Unicode
norsk: Unicode
occitan: Unicode
ਪੰਜਾਬੀ: ਯੂਨੀਕੋਡ
polski: Unikod
português: Unicode
română: Unicode
русский: Юникод
संस्कृतम्: युनिकोड
саха тыла: Юникод
Scots: Unicode
srpskohrvatski / српскохрватски: Unikod
සිංහල: යුනිකෝඩ්
Simple English: Unicode
slovenčina: Unicode
slovenščina: Unicode
shqip: Unicode
српски / srpski: Unikod
Basa Sunda: Unicode
svenska: Unicode
తెలుగు: యూనికోడ్
тоҷикӣ: Юникод
Tagalog: Unikodigo
Türkçe: Unicode
ئۇيغۇرچە / Uyghurche: Unicode
українська: Юнікод
اردو: یونیکوڈ
Tiếng Việt: Unicode
walon: Unicôde
吴语: Unicode
მარგალური: იუნიკოდი
ייִדיש: יוניקאד
Yorùbá: Unicode
中文: Unicode
Bân-lâm-gú: Unicode
粵語: 統一碼