文字コードの自動判別 雑記

読み込むメッセージデータの文字コードをある程度自動判別できるようにしたいので、調べてみました。
文字コードの自動判別について少し調べてみました。


難しいことはしたくなかったので、まずは、 C言語で使用できるライブラリを探しました。


http://www.void.in/wiki/Universalchardet
よさそうなのライブラリなのですが、ライセンスが MPL1.1/GPL2.0/LGPL2.1 のトリプルライセンスとなっています。
これ混ぜていいのか分からない...。


そして、他には見付かりませんでした。


仕方がないので、アルゴリズムを探して実装することにします。
以下に役立ちそうなサイトを記載します。


http://pub.cozmixng.org/~the-rwiki/rw-cgi.rb?cmd=view;name=%A4%BF%A4%E0%A4%E9%3A%3A%C6%FC%CB%DC%B8%EC%CA%B8%BB%FA%A5%B3%A1%BC%A5%C9%A4%CE%BC%AB%C6%B0%C8%BD%C4%EA
文字コードの自動判定に役に立ちそうなサイトのリンクがあります。本来は Ruby のための情報らしいですが、もちろん他のプログラミング言語にも流用可能だと思われます。


http://www.gprj.net/dev/tips/other/kanji.shtml
http://www.gprj.net/modules/mediawiki/index.php?title=%E6%97%A5%E6%9C%AC%E8%AA%9E%E6%96%87%E5%AD%97%E3%82%B3%E3%83%BC%E3%83%89%E3%81%AE%E8%AA%8D%E8%AD%98
上記ふたつのサイトにはアルゴリズムの方針が書かれています。
これはいい。