informatica03

Visto che nel mondo si stavano facendo i primi passi nell’informatica, i cinesi ad un certo punto decisero che bisognava inventarsi un encoding per i caratteri, e se ne uscirono con il codice GB, che sta per 国家标准码 (Guójiā Biáozhǔn mǎ, “standard nazionale”).
Il nome ufficiale sarebbe “GB 2312-80 character set standard”; è stato sviluppato in Cina nel 1981 allo specifico scopo di rappresentare i caratteri cinesi semplificati.
Ci sono stati degli aggiornamenti ed estensioni negli anni, portando GB 6345.1-86, GB 8562.2-88, e ISO-IR-165:1992.
Il codice GB viene utilizzato in Cina popolare e a Singapore, e in generale in tutti i posti dove si usano caratteri semplificati.
GB 2312-80 elenca 7445 caratteri, di cui 6763 Hanzi e 682 non-Hanzi.
Gli Hanzi sono raggruppati in due livelli: livello 1 (3755 caratteri) sono ordinati per Pinyin mentre quelli nel livello 2 sono ordinati per radicale e quindi tratti (tanto per confondere il nemico).
La specifica dice che per rappresentare un carattere ci vogliono due byte, e sono tutti e due inferiori al 128.
Nelle implementazioni correnti però si è deciso di tenere il bit più significativo a uno, per cui sono tutti superiori al 128.
Un file in formato GB si presenta grosso modo così:


´óÎåÂë
¹ú¼Ò±ê×¼Âë
¹ú±ê

2 thoughts on “informatica03”

  1. Grazie per avermi insegnato una cosa, eheh, anche se tutti i giorni uso il “GB 2312-80″, ma non so come sono venuti e non so nemmeno che significano…grazie mille.

    Ma per caso anche queste cifre tipo 2312, 6345-86, 8562.2-88 hanno certi significati? Che ne so, mi viene a pensare che 80, 86, 88 potrebbero essere gli anni…:)))

  2. E’ esatto.
    Il formato preciso dovrebbe essere CN-GB-XXXX-YY, dove XXXX è il numero dello standard e YY è l’anno di emissione.

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>