Unicodeによる多言語表記


コンピュータはもともとアメリカで発明された機械で、テキスト1文字に1バイト=8ビットが割り当てられ、つまり28=256文字しか表現できなかった。アルファベットの大文字と小文字、数字と若干の特殊記号だけである。

しかし、ラテン系の言語のようにアルファベットにアクセント記号がついたり、アジア系の文字は、1バイトでは表しきれないため、それぞれの言語ごとに2バイトのコードを割り振って表現できるようにした。しかしこの方法だと、違う文字体系で同じコードに違う文字を割り振るため、異なる系統の文字を同じページに表示することができないという問題点があった。(エンコーディングをかえると文字化けが起こる)

こうした問題点を解決するために、場合によっては3バイト以上を使って、世界のすべての文字と特殊記号に、重複することなく統一的にコードを割り振る試みが、Unicodeである。Unicodeにもいろいろな変種があって統一されていないが、もっとも標準的なものはUTF-8というコーディングである。

Unicodeのページを作るための手順は以下の通り。

1、フォントの設定。Windows XPなどでは、主要なフォントは主なUnicodeの文字に対応するようになったが、フォントの種類によって対応の度合いが違う。たとえばTahomaなどはより多くの文字を含んでいる。

2、文字の入力。もっとも原始的な方法は、文字パレットのUnicode文字一覧から入力する方法。その他、それぞれの言語に応じて、どのキーを押すとどの文字が出るかという方法が(Windows2000、XPなどには)各種用意されているが、必要なものが使えない場合には改めて設定する方式になっている。

3、コーディングをUnicodeに指定して保存する。

以下はサンプル。

Bon jour (Français)

你好 (中文)
Nĭhăo (Zhōngwén)

안영하심니까? (한글)

こんにちは (日本語)