informatica03

Created on: 2006-01-05 by admin

Visto che nel mondo si stavano facendo i primi passi nell'informatica, i cinesi ad un certo punto decisero che bisognava inventarsi un encoding per i caratteri, e se ne uscirono con il codice GB, che sta per 国家标准码 (Guójiā Biáozhǔn mǎ, "standard nazionale").

Il nome ufficiale sarebbe "GB 2312-80 character set standard"; è stato sviluppato in Cina nel 1981 allo specifico scopo di rappresentare i caratteri cinesi semplificati.

Ci sono stati degli aggiornamenti ed estensioni negli anni, portando GB 6345.1-86, GB 8562.2-88, e ISO-IR-165:1992.

Il codice GB viene utilizzato in Cina popolare e a Singapore, e in generale in tutti i posti dove si usano caratteri semplificati.

GB 2312-80 elenca 7445 caratteri, di cui 6763 Hanzi e 682 non-Hanzi.

Gli Hanzi sono raggruppati in due livelli: livello 1 (3755 caratteri) sono ordinati per Pinyin mentre quelli nel livello 2 sono ordinati per radicale e quindi tratti (tanto per confondere il nemico).

La specifica dice che per rappresentare un carattere ci vogliono due byte, e sono tutti e due inferiori al 128.

Nelle implementazioni correnti però si è deciso di tenere il bit più significativo a uno, per cui sono tutti superiori al 128.

Un file in formato GB si presenta grosso modo così:

´óÎåÂë

¹ú¼Ò±ê×¼Âë

¹ú±ê

Comments:


No Copyright


No Copyright