informatica06

Ultima puntata dei post sul trattamento dei testi nelle lingue orientali.

Il super encoding di cui si parlava nella puntata precedente esiste e si chiama UNICODE.
È chiamato anche UCS (Universal Character Set).
Abbiamo già visto la differenza tra character repertoire, character code e character encoding.
Ora vediamo di applicarla a Unicode.
Per la precisione, Unicode è il nome del character repertoire: è un insieme di caratteri (character set), tale e quale all’alfabeto che si insegna all’asilo: A, B, C. In realtà Unicode è composto da più insiemi di caratteri, però tutti insieme collettivamente prendono questo nome.
I primi posti di questo alfabeto sono tali e quali ai codici ASCII visti in precedenza. Solo che arrivati alla Z continua, ed elenca ogni carattere di ogni lingua viva o morta o inventata.
Esiste una corrispondenza tra i numeri e questi caratteri, e questo è l’aspetto “character code”. In Unicode ogni sistema di scrittura ha la sua area di competenza, per esempio come detto prima i numeri da 0x0020 a 0x007F rappresentano i caratteri ASCII.
I caratteri cinesi sono ordinati per radicale, nel senso che nell’elenco viene prima 水 (shuǐ) con codice 27700, poi 氵 (三点水 sāndiǎnshuǐ) con codice 27701, poi a seguire tutti i caratteri derivati.
Si noti che nelle tabelle ufficiali c’è scritto “CJK Unified ideographs”: In “Unicodese” non si fa differenza tra caratteri cinesi e giapponesi, cioè tra Hanzi e Kanji.
Si è realizzata quella che viene chiamata “Han Unification”, che consiste nel creare un insieme di caratteri comune alla lingua giapponese e alla lingua cinese cosa che ha provocato non pochi battibecchi specialmente da parte dei giapponesi.
Questa è la tabellina delle zone “interessanti”:
0x3000-0x303F: Japanese-style punctuation
0x3040-0x309F: Hiragana
0x30A0-0x30FF: Katakana
0xFF00-0xFFEF: Full-width roman characters and half-width katakana
0x4E00-0x9FAF: CJK unifed ideographs – Common and uncommon kanji
0x3400-0x4DBF: CJK unified ideographs Extension A – Rare kanji
0x20000-0x2A6DF: CJK unified ideographs Extension B – Very rare kanji

2 thoughts on “informatica06”

  1. Grazie per questa serie di articoli sulle codifiche dei caratteri (in particolare quest’ultimo su UNICODE): molto interessanti e chiari. Complimenti!

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>