版本區别
GB18030最新版本是GB18030-2005。GB18030-2005與GB18030-2000的編碼體系結構是完全相同的。那麼,GB18030的2000版和2005版有什麼區别和聯系呢?
2000年發布的GB18030-2000,全名是《信息技術漢字編碼字符集基本集的擴充》。GB18030-2000僅規定了常用非漢字符号和27533個漢字(包括部首、部件等)的編碼。
GB18030-2000是全文強制性标準,市場上銷售的産品必須符合。2005年發布的GB18030-2005在GB18030-2000的基礎上增加了42711個漢字和多種中國少數民族文字的編碼,增加的這些内容是推薦性的。原GB18030-2000中的内容是強制性的,市場上銷售的産品必須符合。故GB18030-2005為部分強制性标準,自發布之日起代替GB18030-2000。GB18030-2005的單字節編碼部分、雙字節編碼部分和四字節編碼部分的CJK統一漢字擴充A(即0x8139EE39—0x82358738)部分為強制性。
總體結構
标準采用單字節、雙字節和四字節三種方式對字符編碼。單字節部分采用GB/T11383的編碼結構與規則,使用0×00至0×7F碼位(對應于ASCII碼的相應碼位)。雙字節部分,首字節碼位從0×81至0×FE,尾字節碼位分别是0×40至0×7E和0×80至0×FE。四字節部分采用GB/T11383未采用的0×30到0×39作為對雙字節編碼擴充的後綴,這樣擴充的四字節編碼,其範圍為0×81308130到0×FE39FE39。其中第一、三個字節編碼碼位均為0×81至0×FE,第二、四個字節編碼碼位均為0×30至0×39。碼位總體結構見右圖。
字彙
18030到2000字彙
GB18030-2000的字彙部分是這樣寫的:
本标準收錄的字符分别以單字節、雙字節和四字節編碼。
1、單字節部分
本标準中,單字節的部分收錄了GB11383的0x00到0x7F全部128個字符及單字節編碼的歐元符号。
2、雙字節部分
本标準中,雙字節的部分收錄内容如下:
GB13000.1的全部CJK統一漢字字符。
GB13000.1的CJK兼容區挑選出來的21個漢字。
GB13000.1中收錄而GB2312未收錄的中國台灣地區使用的圖形字符139個。
GB13000.1收錄的其它字符31個。
GB2312中的非漢字符号。
GB12345的豎排标點符号19個。
GB2312未收錄的10個小寫羅馬數字。
GB2312未收錄的帶音調的漢語拼音字母5個以及ɑ和ɡ。
漢字數字“〇”。
表意文字描述符13個。
增補漢字和部首/構件80個。
雙字節編碼的歐元符号。
3、四字節部分
本标準的四字節的部分,收錄了上述雙字節字符之外的,包括CJK統一漢字擴充A在内的GB13000.1中的全部字符。
18030到2005字彙
GB18030-2005的字彙部分是這樣寫的:本标準收錄的字符分别以單字節、雙字節或四字節編碼。
1、單字節部分
本标準中,單字節的部分收錄了GB/T11383-1989的0x00到0x7F全部128個字符。
2、雙字節部分
本标準中,雙字節的部分收錄内容如下:
GB13000.1-1993的全部CJK統一漢字字符。
GB13000.1-1993的CJK兼容區挑選出來的21個漢字。
GB13000.1-1993中收錄而GB2312未收錄的中國台灣地區使用的圖形字符139個。
GB13000.1-1993收錄的其它字符31個。
GB2312中的非漢字符号。
GB12345的豎排标點符号19個。
GB2312未收錄的10個小寫羅馬數字。
GB2312未收錄的帶音調的漢語拼音字母5個以及ɑ和ɡ。
漢字數字“〇”。
表意文字描述符13個。
對GB13000.1-1993增補的漢字和部首/構件80個。
雙字節編碼的歐元符号。
3、四字節部分
本标準的四字節的部分,收錄了上述雙字節字符之外的,GB13000的CJK統一漢字擴充A、CJK統一漢字擴充B和已經在GB13000中編碼的中國少數民族文字的字符。
GB18030-2005最主要的變化是增加了CJK統一漢字擴充B。它還去掉了單字節編碼的歐元符号0x80)。
GB18030有1611668個碼位,在GB18030-2005中定義了76556個字符。随着中國漢字整理和編碼研究工作的不斷深入,以及國際标準ISO/IEC10646的不斷發展,GB18030所收錄的字符将在新版本中增加。
标準曆程
1980年中國頒布了第一個漢字編碼字符集标準,即GB2312-80《信息交換用漢字編碼字符集基本集》。該标準共收了6763個漢字及常用符号,奠定了中文信息處理的基礎。
随着國際間的交流與合作的擴大,信息處理應用對字符集提出了多文種、大字量、多用途的要求。1993年國際标準化組織發布了ISO/IEC10646-1《信息技術通用多八位編碼字符集第一部分體系結構與基本多文種平面》。中國等同采用此标準制定了GB13000.1-1993。該标準采用了全新的多文種編碼體系,收錄了中、日、韓20902個漢字,是編碼體系未來發展方向。由于其新的編碼體系與現有多數操作系統和外部設備不兼容,所以它的實現仍需要有一個過程,目前還不能完全解決中國當前應用的迫切需要。
考慮到GB13000的完全實現有待時日,以及GB2312編碼體系的延續性和現有資源和系統的有效利用與過渡,我們選擇了在GB2312(GB2311)的基礎上進行擴充,并且在字彙上與GB13000.1兼容的方案,研制一個新的标準——漢字編碼基本集的擴充,進而完善GB2312,以滿足中國郵政、戶政、金融、地理信息系統等應用的迫切需要。
此項目業已列入1998年國家标準制定計劃。1998年10月,由信息産業部電子四所、北京大學計算機技術研究所、北大方正集團、新天地公司、四通新世紀公司、中科院軟件所、長城軟件公司、中軟總公司、金山軟件公司和聯想公司的技術人員組成标準起草組。
在标準研制過程中,中國信息技術标準化技術委員會多次召集标準起草組和知名公司對标準草案進行充分地研究論證,并且特邀了微軟公司、惠普公司、Sun公司和IBM公司等參加,廣泛征求意見。标準起草組經過反複斟酌和驗證,提出了标準制定原則——與GB2312信息處理交換碼所對應的事實上的内碼标準兼容,在字彙上支持GB13000.1的全部中、日、韓(CJK)統一漢字字符和全部CJK擴充A的字符,并且确定了編碼體系和27484個漢字,形成兼容性、擴展性、前瞻性兼備的方案。
信息産業部和原國家質量技術監督局于2000年3月17日聯合發布了該标準,即GB18030-2000《信息技術信息交換用漢字編碼字符集基本集的擴充》。該标準作為國家強制性标準自發布之日起實施,過渡期到2001年8月31日止。
期間,中國信标委曾制定和發布《漢字擴展規範GBK1.0》,并在MSWindows9x/Me/NT/2000、IBMOS/2的系統中廣泛應用。GB18030是國家标準,在技術上是GBK的超集,并與其兼容,因此,GBK将結束其曆史使命。



















