2016年11月05日

ハングルをテキストデータで扱えるか

 ちょっとした経緯で、オーツはハングルをテキストデータで扱えるか、試すことになりました。
 半角英数字とハングルが混在するテキストファイルをプログラムで読み込んで処理するというものでした。
 プログラムは半角文字が使われているように設計されていました。それを変更することはできません。
 では、テキストファイルでハングルを入れると、どうなるのでしょうか。エディタで扱えればそれでよしです。
 まず、ハングルで書かれた Word のファイルをもらいました。次にテキストエディタ MIFES で、テキストファイルを用意し、Word のほうで一部をコピーし、MIFES でペーストしました。「設定」から「環境設定」をクリックし、「文字コード」を「韓国語」にすると、半角英数字とハングルが混じって表示されます。これはいけそうです。
 そこで、このファイルを「保存」しました。その上で、バイナリファイルとして中身を見てみると、半角文字は普通は1バイトで扱われるのに、2バイトになっていました。そして、ファイルの先頭に変な文字が2文字入っていました。16進コードで「FF FE」だったですかね。
 というわけで、このファイルをソフトで読み込んでも、半角文字が正常に認識されず、データとして扱えないことがわかりました。
 オーツの予想通り、ハングルのテキストファイルを扱うのはどうも無理なようです。
続きを読む
posted by オーツ at 06:38| Comment(4) | TrackBack(0) | パソコンとIT | このブログの読者になる | 更新情報をチェックする