中日韓統一表意文字

注意:本页面含有 Unihan新版用字。有关字符可能會错误显示,詳见 Unicode扩展汉字

中日韓統一表意文字英语:CJK Unified Ideographs),也稱統一漢字英语:Unihan),目的是要把分別來自 中文日文韓文越南文壮文琉球文中,起源相同、本義相同、形狀一樣或稍異的 需要消歧义],在 ISO 10646萬國碼標準賦予相同 編碼

所謂「起源相同、本義相同、形狀一樣或稍異的 表意文字」,主要為 汉字,包括 繁體字簡體字日本漢字漢字/かんじ)、 韓國漢字漢字/한자)、 琉球汉字 (漢字ハンジ) 、越南的 喃字𡨸喃Chữ Nôm)與 儒字𡨸儒Chữ Nho) 、 方塊壯字

此計劃原本只包含中文、日文及韓文中所使用的漢字,舊稱中日韓(CJK)統一表意文字Unified Ideographs)。後來,此計劃加入了越南文的 喃字,所以合稱中日韓越(CJKV)統一表意文字。

歷史

1978年,日本基於 ISO 2022,制訂了全世界最早的漢字編碼 JIS C 6226。1980年代,中國大陸、臺灣、韓國則各自制訂了自己的規範。這些規範彼此之間並無關聯。若要在一份文件中同時使用,則要以脫序字符的方式來交換。

1980年,日本的 國立國會圖書館的高橋德太郎以圖書學的觀點指出,一個統一的東亞漢字編碼系統是有必要的。同年,臺灣制定了三位元組的 中文資訊交換碼。偶然的是,這是第一個期望可以一致處理中國、日本、韓國漢字的編碼。之後,美國的 國會圖書館採用了此規格,並另外命名為東亞編碼字符(East Asia Coded Character,EACC,ANSI/NISO Z39.64)。

1984年,ISO的文字編碼委員會(ISO/TC 97/SC2)決議制訂出一套編碼規格(ISO 10646),是以交換文字集的方式來統一處理世界的文字。並成立了工作小組(ISO/TC 97/SC 2/ WG 2)。這個編碼一開始的構想是採用16位元,而對於日本及中國等國的漢字編碼則原封不動地加入。但若如此,中國當時所制訂的編碼都無法加入,因而反對。並於1989年,提出了各國的漢字統合集合(Han Character Collection,HCC)的構想。

1990年完成了ISO 10646的初版草案(DIS 10646)。漢字使用32位元來表示。並將各國的漢字編碼原封不動地加入。但中國認為,若各國各自為漢字編碼,將不利於統一處理漢字,因而反對。為了日後關於漢字編碼的討論及方針能順利進行,並呼籲WG 2特別設置了 中日韓聯合研究小組(CJK-JRG,Joint Research Group,為 表意文字小組的前身),以持續討論。

另一方面,1987年, 全錄的Joe Becker和Lee Collins開發了統合處理全世界所有文字的 統一碼。1989年發表了統一碼概要。基本為16位元。於是,中、日、韓文字統合了。基本方針為以16位元處理所有文字。 1990年,完成了基於此方針的最終草案。隔年1991年1月,大致同意此方案的企業成立了 統一碼聯盟。中、日、韓中類似的漢字使用約二萬多個字。為了未來擴充,保留了三萬個漢字以供其它用途。

1991年,各國希望能以一致的方式處理文字,如統一碼這般,因而否決了ISO/IEC 10646的初版草案。基於中國與統一碼聯盟的提議,ISO 10646和統一碼成立了中日韓聯合研究小組。中日韓聯合研究小組將基於各國的漢字編碼,獨自訂定規範、制作ISO 10646和統一碼的統一漢字編碼。年尾,完成了Unified Repertoire and Ordering(URO)。

1992年,URO加入ISO 10646的第二版。但是,發現了一些缺失,之後進行了修正。

1993年5月,正式制訂了最初的中日韓統一表意文字,位於U+4E00–U+9FFF這個區域,共20,902個字。一個月後,制訂了統一碼1.1。

1999年,依據ISO/IEC 10646的第17個修正案(Amendment 17)訂定了扩展区A,於U+3400–U+4DFF加入了6,582個字。

2001年,依據ISO/IEC 10646-2,新增了擴充區B,有42,711字。位於U+20000–U+2A6FF。但因在短時間內增加了大量的漢字,導致產生了許多重複的字形。

2005年,依據ISO/IEC 10646:2003的第1個修正案(Amendment 1), 基本多文種平面增加了U+9FA6到U+9FBB等22個漢字。

2009年,統一碼5.2扩展区C增加了U+2A700–U+2B734和基本多文种平面增加了U+9FC4–U+9FCB。

2010年,統一碼6.0扩展区D增加了U+2B740–U+2B81F。

2012年, 1字增加U+9FCC。

2015年,統一碼8.0扩展区E增加了U+2B820–U+2CEAF和基本多文种平面增加了U+9FCD–U+9FD5。

2017年,统一码10.0扩展区F增加了U+2CEB0–U+2EBEF和基本多文种平面增加了U+9FD6–U+9FEA。