查ASC碼/漢字的編碼知識
1.漢字的編碼
(1)國標碼:是指我國1980年公佈的“資訊交換漢字編碼字元集”,代號為“GB2312-80”。由連續的兩個位元組組成。
(2)機內碼:在電腦內表示漢字的代碼是漢字機內碼,漢字機內碼由國標碼演化而來,把表示國標碼的兩個位元組的最高位元分別加“1”,就變成漢字機內碼。
(3)輸入碼: 漢字輸入碼是指直接從鍵盤輸入的各種漢字輸入方法的編碼,屬於外碼。
(4)字型點陣碼:用點陣方式來構造漢字字型,然後存儲在電腦內,構成漢字字模庫。目的是為了能顯示和列印漢字。
編碼的轉換舉例
漢字 區位碼 16進制 國標碼 機內碼
文 4636 2E24H 4E44H CEC4H
“文”的區位碼為4636,區碼和位碼分別用16進制表示即為“2E24H”, 0010 1110 0010 0100轉換成國標碼“4E44H”,0100 1110 0100 0100機內碼為“CEC4H”, 1100 1110 1100 0100
2.漢字的輸入方法
漢字輸入方法目前有兩大類四種。
(1)鍵盤輸入法。這是最常用的,利用各種漢字輸入方法的編碼敲擊鍵盤來輸入漢字;
(2)非鍵盤輸入法。目前主要有三種方法。
手寫筆輸入法:利用漢字識別技術,通過書寫筆在感應板上書寫漢字把其輸入的方法。
語音輸入法:利用語音識別技術,通過口說來輸入漢字。
掃描識別輸入,是將印或寫在紙上的漢字通過掃描器輸入電腦,再經相應軟體處理後轉換成漢字機內碼。
3.中文字元集的概念
有兩種中文字元集。
(1)國標碼字元集GB2312-80:該字元集收錄了6763個常用漢字,其中一級漢字3755個,二級漢字3008個。另外還收錄了各種符號682個,合計7445個。
(2)GBK漢字集:GBK即漢字擴充內碼規範,又稱大字元集,一共收錄了20900個漢字。在Windows簡體中文版中,又增加了101個補充字,一共有21001個字。它包容了GB2312-80的6763個常用漢字,臺灣BIG5碼收錄了13000多個漢字,是目前見到的收錄漢字最多的漢字系統。