ローグ・ログ

文字コードの自動判別雑記

rogueclone2s

読み込むメッセージデータの文字コードをある程度自動判別できるようにしたいので、調べてみました。
文字コードの自動判別について少し調べてみました。

難しいことはしたくなかったので、まずは、 C言語で使用できるライブラリを探しました。

http://www.void.in/wiki/Universalchardet
よさそうなのライブラリなのですが、ライセンスが MPL1.1/GPL2.0/LGPL2.1 のトリプルライセンスとなっています。
これ混ぜていいのか分からない...。

そして、他には見付かりませんでした。

仕方がないので、アルゴリズムを探して実装することにします。
以下に役立ちそうなサイトを記載します。

http://pub.cozmixng.org/~the-rwiki/rw-cgi.rb?cmd=view;name=%A4%BF%A4%E0%A4%E9%3A%3A%C6%FC%CB%DC%B8%EC%CA%B8%BB%FA%A5%B3%A1%BC%A5%C9%A4%CE%BC%AB%C6%B0%C8%BD%C4%EA
文字コードの自動判定に役に立ちそうなサイトのリンクがあります。本来は Ruby のための情報らしいですが、もちろん他のプログラミング言語にも流用可能だと思われます。

http://www.gprj.net/dev/tips/other/kanji.shtml
http://www.gprj.net/modules/mediawiki/index.php?title=%E6%97%A5%E6%9C%AC%E8%AA%9E%E6%96%87%E5%AD%97%E3%82%B3%E3%83%BC%E3%83%89%E3%81%AE%E8%AA%8D%E8%AD%98
上記ふたつのサイトにはアルゴリズムの方針が書かれています。
これはいい。