中国語の文字コードについての解説ページです。
日本語の文字コードについては、文字コードについてを参照してください。中国語についてのページもあります。
中国語には、繁体字(Traditional Chinese)と、簡体字(Simplified Chinese)があります。
繁体字は香港や台湾で使われていて、簡体字は中国本土やシンガポールで使われています。
簡体字は、繁体字の画数を減らし、簡単に読み書きできるように改良したものですが、文字コード体系が全く異なるため、全く互換性はありません。
繁体字中国語の文字コードは、台湾のメーカー5社が策定した「Big5」がよく使われています。
ただ、Big5は、ISO-2022準拠でないため、「CNS11643(EUC_TW)」も作られました。
CNSは、Chinese National Standardsの略です。
簡体字中国語の文字コードは、「GB2312(EUC_CN)」がよく使われています。
GBは、国家標準(Guo jia Biao zhun)の略です。
この他にも、中国語の文字コードはありますが、Big5とGB2312の2つを覚えておけばいいでしょう。
HTMLなどで使用されるキャラクタセットは、IANAによって決められていて、
http://www.iana.org/assignments/character-sets
に一覧があります。
中国語では、繁体字中国語は、big5、簡体字中国語では、GB2312などが使われています。
CNS11643(EUC_TW)は、IANAに登録されていませんので、ここでは扱いません。
文字コードの種類 | キャラクタセット |
---|---|
繁体字中国語(Traditional Chinese) | charset=big5 |
簡体字中国語(Simplified Chinese) | charset=GB2312 |
中国語の文字コード表です。 このコード表を見るためには、下記のIEの多言語フォントが必要です。
文字コード表 | コード表作成スクリプト |
---|---|
繁体字中国語(Big5)の文字コード表 | Big5コード表作成スクリプト |
簡体字中国語(GB2312)の文字コード表 | GB2312コード表作成スクリプト |
このコード表は、Perlスクリプトにより、自動作成しています。 作成したHTMLファイルを日本語エディタなどで編集したり、コード変換すると壊れる可能性が高いので注意してください。
文字コードの種類 | 1バイト目 | 2バイト目 |
---|---|---|
繁体字中国語(Traditional Chinese) | 0xA1-0xC6, 0xC9-0xF9 | 0x40-0x7E, 0xA1-0xFE |
簡体字中国語(Simplified Chinese) | 0xA1-0xFE | 0xA1-0xFE |
Microsoft社のInternetExplorerを使うと、簡単に中国語で記述されたページを表示できます。
charset=big5やcharset=GB2312が定義されている中国語のページにアクセスすると、中国語(繁体字)や中国語(簡体字)をインストールするかを聞いてきますので、インストールしましょう。
上記の文字コード表では、big5とGB2312を使用していますので、IEでこの文字コード表を表示すれば、インストールできます。
インストールすると、以下のフォントが追加されます。
簡体字中国語用のフォントは、2種類追加されます。
繁体字中国語(Big5)用のフォント | 「明柳」MingLiU |
---|---|
簡体字中国語(GB2312)用のフォント | 「宋体」MS Song 「黒体」MS Hei |
切り替え方法は、以下の手順で行います。
・繁体字中国語(Big5)に切り替える場合 「表示」「エンコード」「繁体字中国語(Big5)」 ・簡体字中国語(GB2312)に切り替える場合 「表示」「エンコード」「簡体字中国語(GB2312)」 |
Netscape Navigatorでも、IEのフォントを使って、中国語の表示ができます。
メニューの「編集」「設定」を選択します。 「表示」「フォント」を選択し、以下の値を設定します。 ・繁体字中国語(Big5)の設定 文字コードセット:「中国語」を選択 プロポーショナルフォント:「MingLiU」を選択 固定ピッチフォント:「MingLiU」を選択 ・簡体字中国語(GB2312)の設定 文字コードセット:「簡体字中国語」を選択 プロポーショナルフォント:「MS Song、または、MS Hei」を選択 固定ピッチフォント:「MS Song、または、MS Hei」を選択 |
TeraTermでは、IEの多言語フォントを使って、中国語の表示ができます。
メニューの「Setup」「terminal」を選択し、「JIS」に切り替えます。 メニューの「Setup」「font」を選択して、以下のフォントを選択します。 ・繁体字中国語(Big5)の場合 「MingLiU」を選択 ・簡体字中国語(GB2312)の場合 「MS Song」または 「MS Hei」を選択 |
LinuxやFreeBSDでは、中国語に対応していますので、localeを変更することで、多くのアプリケーションが中国語対応になります。
また、中国語も日本語同様にマルチバイト文字ですから、8ビット可能な設定にする必要があります。
以下に、その設定例を示します。
localeの値は、ls /usr/share/localeなどで、確認してください。
・繁体字中国語(Big5)の設定 unix# vi .cshrc setenv LANG zh_TW.Big5 setenv LC_ALL zh_TW.Big5 stty cs8 pass8 -parity -istrip ・簡体字中国語(GB2312)の設定 unix# vi .cshrc setenv LANG zh_CN.EUC setenv LANG zh_CN.GB2312 setenv LC_ALL zh_CN.EUC setenv LC_ALL zh_CN.GB2312 stty cs8 pass8 -parity -istrip |
UNIX上のテキストブラウザのLynxも、localeに従って動作しますので中国語対応していますが、独自の設定ファイル(lynx.cfg)を持っているため、TeraTermを中国語対応するだけでは、中国語の表示はできません。
以下の設定で、Lynxの中国語表示が可能です。
・繁体字中国語(Big5)の設定 unix# setenv LYNX_CFG ~/.lynx_big5.cfg unix# vi ~/.lynx_big5.cfg INCLUDE:/usr/local/etc/lynx.cfg CHARACTER_SET:big5 ASSUME_CHARSET:big5 ASSUME_LOCAL_CHARSET:big5 PREFERRED_LANGUAGE:zh_TW.Big5 PREFERRED_CHARSET:big5 ・簡体字中国語(GB2312)の設定 unix# setenv LYNX_CFG ~/.lynx_gb2312.cfg unix# vi ~/.lynx_gb2312.cfg INCLUDE:/usr/local/etc/lynx.cfg CHARACTER_SET:euc-cn ASSUME_CHARSET:euc-cn ASSUME_LOCAL_CHARSET:euc-cn PREFERRED_LANGUAGE:zh_CN.EUC PREFERRED_CHARSET:euc-cn |
Big5とGBの変換や、Big5やGBと日本語の変換をする場合には、Unicodeを経由すると可能です。 Unicodeでは、CJK統一漢字と言って、中国、日本、韓国(Chinese, Japan, Korea)の同じ意味の文字を同じコードに割り当てているためです。 ただし、Big5やGBにあって、日本語にない漢字は変換できません。 しかし、漢文を読むような感じで、なんとなく読めるようにはなります。 文字コード変換をしてしまえば、IEやTeraTermがなくても表示できるようになります。
UNIX上の文字コードツールとして、iconvがあります。 iconvでは、Big5やGB2312から日本語に直接変換はできませんが、一度UTF-8を経由すれば変換できます。 iconvのオプションは、大文字と小文字を区別しますので、注意が必要です。
形式 iconv -f fromcode -t tocode [ file ... ] オプション code(fromcode, tocode) EUC-JP: 日本語EUC eucJP: 日本語EUC Shift_JIS: 日本語Shift_JIS SJIS: 日本語Shift_JIS ISO-2022-JP: 日本語JIS UTF-8: UTF-8 UTF-16: UTF-16 Big5: 繁体字中国語(Big5) GB2312: 簡体字中国語(GB2312) |
中国語を入力するために、Microsoft社のGlobal IMEをインストールします。 Global IMEは、以下のURLから無料でダウンロードできます。
http://www.microsoft.com/msdownload/iebuild/ime5_win32/en/ime5_win32.htm |
以下のパッケージをダウンロードして、exeファイルを実行すればインストールできます。
Microsoft Global IME 5.02 for Chinese (Simplified) msscaime.exe Microsoft Global IME 5.02 for Chinese (Traditional) mstcaime.exe |
中国語を入力するためには、Global IMEに対応しているエディタが必要です。 「秀丸エディタ」は、フォントを変更することで、中国語の表示はできますが、入力はできません。 そこで、xyzzyという、Muleライクなフリーのエディタを使います。 xyzzyは、以下のサイトからダウンロードできます。
http://www.forest.impress.co.jp/library/xyzzy.html |
xyzzyは、以下の設定で中国語の編集ができます。
「ツール」「共通設定」を選択 「いろいろ」を選択 「Global IMEを使う」をチェック 「フォント」を選択 ・Big5の場合 「MingLiU」を選択 ・GB2312の場合 「MS Song」か「MS Hei」を選択 |
xyzzyは、Unicodeにも対応しているので、XMLなどのデータを作成するときにも使えます。
中国語を入力するためには、IMEを切り替える必要があります。 IMEを切り替えるためには、まず、Global IMEに対応したアプリケーション(IEやxyzzyなど)をアクティブにします。 この状態で、タスクバーのIMEボタンをクリックし、以下のポップアップから、中国語のIMEを選択します。
Microsoft IME 2000 (Japanese) 中国語(簡体字)IME 中国語(繁体字)IME |
中国語(簡体字)IMEでは、ピンイン入力ができます。 ピンインを知らない場合は、漢和辞典や中国語辞典などで調べることができます。 例えば、「中国」と入力する場合は、「zhong1 guo2」と入力します。 アルファベットの最後の数字は、四声で、変換キーを兼ねています。 中国語(繁体字)IMEでは、残念ながら、ピンイン入力はできません。
Big5(繁体字中国語)を入力する場合や、ピンインを知らない場合などに有効です。
特にBig5では、文字コードが総画数順に並んでいますので、入力したい漢字を探すのも簡単です。
まず、上記の文字コード表を表示し、入力したい漢字を探して、コピーします。
そして、IEのフォームや、xyzzyなどのエディタに貼り付けます。