informatica05

Penultima puntata dei post sul trattamento dei testi nelle lingue orientali.
L’encoding Big5 (大五吗, dàwǔmǎ) è lo standard di fatto per i caratteri non semplificati (繁体字).
Si usa a Taiwan, Hong Kong e in varie comunità di cinesi all’estero, tipo America, Thailandia etc…
Il nome BIG 5 si riferisce alle cinque grosse ditte che collaborarono allo sviluppo dello standard, che fu pubblicato nel 1984.
Il numero di caratteri elencato nello standard BIG 5 è molto più grande di quello del GB 2310-80; BIG5 ha 13494 caratteri, di cui 13053 Hanzi e 441 non-Hanzi. I caratteri Hanzi sono raggruppati in livelli come il GB 2310-80, comunque sono tutti ordinati per radicale e numero di tratti senza tenere in considerazione la pronuncia.
C’è anche un mostro denominato BIG5+ (BIG 5 Plus), sviluppato a Taiwan, che comprende 21585 caratteri.
Attenzione attenzione, lo standard a Taiwan si chiama NS 11643-1992 (Chinese National Standard). Questo standard comprende 48027 caratteri.
Hong Kong, per non essere da meno, ha esteso BIG5 per includere caratteri usati localmente e ha istituito il cosiddetto GCCS (“Government Chinese Character Set).
Ora veniamo al problema principale. Questi encoding non si possono usare contemporaneamente.
Quindi non solo non si può scrivere un documento che contenga sia lettere accentate che caratteri cinesi, ma non si può scrivere un documento che abbia sia caratteri semplificati che non, come non si può scrivere un documento con lettere ebraiche e caratteri tamil, o anche tamil e arabo, eccetera.
Allora perchè non fare un super encoding usando tutti i bit che ci vogliono e mettere dentro tutti i caratteri di tutte le lingue?

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>