2020年07月16日

Windows の標準文字コードが UTF-8 になる

 あるとき、オーツがいろいろな人からファイルに入れたテキストデータを集めることになって、気がつきました。みんなが UTF-8 の文字コードで送ってくるのです。
 なぜ、わざわざ面倒なことをしているのだろうと思って、尋ねてみたらわかりました。現在は、Windows のメモ帳でテキストファイルを作成すると、デフォルトで UTF-8 のコードが使われるというわけです。
 ネット内を検索すると、このことに言及した記事がいくつかヒットしました。
https://xtech.nikkei.com/atcl/nxt/column/18/00723/042300004/
https://pc.watch.impress.co.jp/docs/column/config/1158344.html
https://blogs.windows.com/japan/2020/02/20/about-windows-and-japanese-text/
 オーツはシフトJISがずっと使われているのだろうと思っていましたが、そうではなくなっているのですね。オーツは今まですべてのデータをパソコン内にシフトJISで保存するようにしてきましたが、このやり方がいつまで通用するのか、気になってきました。まあ、今までの蓄積があるので、そう簡単にシフトJISのファイルが読めなくなることはないと思うものの、あと20年持つのか、不安になってきました。
 あ、あと20年というのは、オーツが死ぬころです。それまではシフトJISを(たとえ一人になっても)死守したいと考えています。文字コードが変わると、パソコン内のさまざまなところに影響が及びます。一番大きいのは、自作のプログラムの類です。シフトJISと UTF-8 では1文字あたりのバイト数が異なるので、これらのプログラム全部がそのままでは動作しなくなると思います。オーツは、シフトJISのデータを読み込んでいろいろ処理することを前提にプログラムを書いてきました。
 たとえば、エディタからメールを送るときにも、自作プログラムがかんでいて、1行ごとに適当な文字数で改行するようにしていますが、UTF-8 のコードのファイルであれば、この文字数を数える部分を全部書き換えなければ動作しません。
 それにしたって、すでにパソコン中には膨大な量のファイルがシフトJISで蓄積されているので、そこに UTF-8 のファイルを混ぜていくのは危険極まりないです。
 やれやれ。

 いろいろな人から送られてきたファイル数十個は、結局、オーツが1個ずつシフトJISにコード変換して手元に保存することにしました。エディタで保存するときに文字コードを変えるだけですが、何個も行うとなると、けっこうな手間になりました。
posted by オーツ at 05:53| Comment(0) | パソコンとIT | このブログの読者になる | 更新情報をチェックする