ASH | サーバ | セキュリティ | Linux | FreeBSD | DB | Web | CGI | Perl | Java | XML | プログラム | ネットワーク | 標準 | Tips集

中国語の文字コード

 中国語の文字コードについての解説ページです。
 日本語の文字コードについては、文字コードについてを参照してください。中国語についてのページもあります。

中国語の文字コードの種類

 中国語には、繁体字(Traditional Chinese)と、簡体字(Simplified Chinese)があります。 繁体字は香港や台湾で使われていて、簡体字は中国本土やシンガポールで使われています。 簡体字は、繁体字の画数を減らし、簡単に読み書きできるように改良したものですが、文字コード体系が全く異なるため、全く互換性はありません。
 繁体字中国語の文字コードは、台湾のメーカー5社が策定した「Big5」がよく使われています。 ただ、Big5は、ISO-2022準拠でないため、「CNS11643(EUC_TW)」も作られました。 CNSは、Chinese National Standardsの略です。
 簡体字中国語の文字コードは、「GB2312(EUC_CN)」がよく使われています。 GBは、国家標準(Guo jia Biao zhun)の略です。
 この他にも、中国語の文字コードはありますが、Big5とGB2312の2つを覚えておけばいいでしょう。

 HTMLなどで使用されるキャラクタセットは、IANAによって決められていて、 http://www.iana.org/assignments/character-sets に一覧があります。
 中国語では、繁体字中国語は、big5、簡体字中国語では、GB2312などが使われています。 CNS11643(EUC_TW)は、IANAに登録されていませんので、ここでは扱いません。

文字コードの種類 キャラクタセット
繁体字中国語(Traditional Chinese) charset=big5
簡体字中国語(Simplified Chinese) charset=GB2312

中国語の文字コード表

 中国語の文字コード表です。 このコード表を見るためには、下記のIEの多言語フォントが必要です。

文字コード表 コード表作成スクリプト
繁体字中国語(Big5)の文字コード表 Big5コード表作成スクリプト
簡体字中国語(GB2312)の文字コード表 GB2312コード表作成スクリプト

 このコード表は、Perlスクリプトにより、自動作成しています。 作成したHTMLファイルを日本語エディタなどで編集したり、コード変換すると壊れる可能性が高いので注意してください。

文字コードの種類 1バイト目 2バイト目
繁体字中国語(Traditional Chinese) 0xA1-0xC6, 0xC9-0xF9 0x40-0x7E, 0xA1-0xFE
簡体字中国語(Simplified Chinese) 0xA1-0xFE 0xA1-0xFE

ブラウザで中国語のホームページの表示

Internet Explorerでの表示

 Microsoft社のInternetExplorerを使うと、簡単に中国語で記述されたページを表示できます。
 charset=big5やcharset=GB2312が定義されている中国語のページにアクセスすると、中国語(繁体字)や中国語(簡体字)をインストールするかを聞いてきますので、インストールしましょう。
 上記の文字コード表では、big5とGB2312を使用していますので、IEでこの文字コード表を表示すれば、インストールできます。
 インストールすると、以下のフォントが追加されます。 簡体字中国語用のフォントは、2種類追加されます。

繁体字中国語(Big5)用のフォント 「明柳」MingLiU
簡体字中国語(GB2312)用のフォント 「宋体」MS Song
「黒体」MS Hei

 切り替え方法は、以下の手順で行います。

・繁体字中国語(Big5)に切り替える場合
 「表示」「エンコード」「繁体字中国語(Big5)」

・簡体字中国語(GB2312)に切り替える場合
 「表示」「エンコード」「簡体字中国語(GB2312)」

Netscape Navigatorでの表示

 Netscape Navigatorでも、IEのフォントを使って、中国語の表示ができます。

メニューの「編集」「設定」を選択します。
「表示」「フォント」を選択し、以下の値を設定します。

・繁体字中国語(Big5)の設定
 文字コードセット:「中国語」を選択
 プロポーショナルフォント:「MingLiU」を選択
 固定ピッチフォント:「MingLiU」を選択

・簡体字中国語(GB2312)の設定
 文字コードセット:「簡体字中国語」を選択
 プロポーショナルフォント:「MS Song、または、MS Hei」を選択
 固定ピッチフォント:「MS Song、または、MS Hei」を選択

telnetで中国語の表示

 TeraTermでは、IEの多言語フォントを使って、中国語の表示ができます。

メニューの「Setup」「terminal」を選択し、「JIS」に切り替えます。
メニューの「Setup」「font」を選択して、以下のフォントを選択します。

・繁体字中国語(Big5)の場合
 「MingLiU」を選択

・簡体字中国語(GB2312)の場合
 「MS Song」または 「MS Hei」を選択

 LinuxやFreeBSDでは、中国語に対応していますので、localeを変更することで、多くのアプリケーションが中国語対応になります。 また、中国語も日本語同様にマルチバイト文字ですから、8ビット可能な設定にする必要があります。
 以下に、その設定例を示します。 localeの値は、ls /usr/share/localeなどで、確認してください。

・繁体字中国語(Big5)の設定
unix# vi .cshrc
setenv LANG      zh_TW.Big5
setenv LC_ALL    zh_TW.Big5
stty cs8 pass8 -parity -istrip

・簡体字中国語(GB2312)の設定
unix# vi .cshrc
setenv LANG      zh_CN.EUC
setenv LANG      zh_CN.GB2312
setenv LC_ALL    zh_CN.EUC
setenv LC_ALL    zh_CN.GB2312
stty cs8 pass8 -parity -istrip

テキストブラウザ(Lynx)の中国語対応

 UNIX上のテキストブラウザのLynxも、localeに従って動作しますので中国語対応していますが、独自の設定ファイル(lynx.cfg)を持っているため、TeraTermを中国語対応するだけでは、中国語の表示はできません。
 以下の設定で、Lynxの中国語表示が可能です。

・繁体字中国語(Big5)の設定
unix# setenv LYNX_CFG  ~/.lynx_big5.cfg
unix# vi ~/.lynx_big5.cfg

INCLUDE:/usr/local/etc/lynx.cfg
CHARACTER_SET:big5
ASSUME_CHARSET:big5
ASSUME_LOCAL_CHARSET:big5
PREFERRED_LANGUAGE:zh_TW.Big5
PREFERRED_CHARSET:big5

・簡体字中国語(GB2312)の設定
unix# setenv LYNX_CFG  ~/.lynx_gb2312.cfg
unix# vi ~/.lynx_gb2312.cfg

INCLUDE:/usr/local/etc/lynx.cfg
CHARACTER_SET:euc-cn
ASSUME_CHARSET:euc-cn
ASSUME_LOCAL_CHARSET:euc-cn
PREFERRED_LANGUAGE:zh_CN.EUC
PREFERRED_CHARSET:euc-cn

中国語の文字コード変換

UnicodeとCJK統一コード

 Big5とGBの変換や、Big5やGBと日本語の変換をする場合には、Unicodeを経由すると可能です。 Unicodeでは、CJK統一漢字と言って、中国、日本、韓国(Chinese, Japan, Korea)の同じ意味の文字を同じコードに割り当てているためです。 ただし、Big5やGBにあって、日本語にない漢字は変換できません。 しかし、漢文を読むような感じで、なんとなく読めるようにはなります。 文字コード変換をしてしまえば、IEやTeraTermがなくても表示できるようになります。

文字コード変換ツール

 UNIX上の文字コードツールとして、iconvがあります。 iconvでは、Big5やGB2312から日本語に直接変換はできませんが、一度UTF-8を経由すれば変換できます。 iconvのオプションは、大文字と小文字を区別しますので、注意が必要です。

形式
  iconv -f fromcode -t tocode [ file ... ]
オプション
  code(fromcode, tocode)
    EUC-JP:      日本語EUC
    eucJP:       日本語EUC
    Shift_JIS:   日本語Shift_JIS
    SJIS:        日本語Shift_JIS
    ISO-2022-JP: 日本語JIS
    UTF-8:       UTF-8
    UTF-16:      UTF-16
    Big5:        繁体字中国語(Big5)
    GB2312:      簡体字中国語(GB2312)

中国語の入力方法

Global IMEのインストールと設定

 中国語を入力するために、Microsoft社のGlobal IMEをインストールします。 Global IMEは、以下のURLから無料でダウンロードできます。

http://www.microsoft.com/msdownload/iebuild/ime5_win32/en/ime5_win32.htm

 以下のパッケージをダウンロードして、exeファイルを実行すればインストールできます。

Microsoft Global IME 5.02 for Chinese (Simplified)
  msscaime.exe
Microsoft Global IME 5.02 for Chinese (Traditional)
  mstcaime.exe

中国語エディタ(xyzzy)のインストールと設定

 中国語を入力するためには、Global IMEに対応しているエディタが必要です。 「秀丸エディタ」は、フォントを変更することで、中国語の表示はできますが、入力はできません。 そこで、xyzzyという、Muleライクなフリーのエディタを使います。 xyzzyは、以下のサイトからダウンロードできます。

http://www.forest.impress.co.jp/library/xyzzy.html

 xyzzyは、以下の設定で中国語の編集ができます。

「ツール」「共通設定」を選択
「いろいろ」を選択
 「Global IMEを使う」をチェック
「フォント」を選択
・Big5の場合
 「MingLiU」を選択
・GB2312の場合
 「MS Song」か「MS Hei」を選択

 xyzzyは、Unicodeにも対応しているので、XMLなどのデータを作成するときにも使えます。

IMEの切り替え方法

 中国語を入力するためには、IMEを切り替える必要があります。 IMEを切り替えるためには、まず、Global IMEに対応したアプリケーション(IEやxyzzyなど)をアクティブにします。 この状態で、タスクバーのIMEボタンをクリックし、以下のポップアップから、中国語のIMEを選択します。

 Microsoft IME 2000 (Japanese)
 中国語(簡体字)IME
 中国語(繁体字)IME

ピンイン入力方法

 中国語(簡体字)IMEでは、ピンイン入力ができます。 ピンインを知らない場合は、漢和辞典や中国語辞典などで調べることができます。 例えば、「中国」と入力する場合は、「zhong1 guo2」と入力します。 アルファベットの最後の数字は、四声で、変換キーを兼ねています。 中国語(繁体字)IMEでは、残念ながら、ピンイン入力はできません。

文字コード入力方法

 Big5(繁体字中国語)を入力する場合や、ピンインを知らない場合などに有効です。 特にBig5では、文字コードが総画数順に並んでいますので、入力したい漢字を探すのも簡単です。
 まず、上記の文字コード表を表示し、入力したい漢字を探して、コピーします。 そして、IEのフォームや、xyzzyなどのエディタに貼り付けます。



Copyright (C)1995-2002 ASH multimedia lab.
mail : info@ash.jp