Unicode 雑記

rogueclone2s の内部処理の Unicode 化を行うため、まず Unicode について調べました。

UnicodeUTF-8, UTF-16, UTF-32 等の違い

Unicode は符号化文字集合の事です。つまり、文字に符号に割り当てる規格です。
UTF-8, UTF-16, UTF-32 等は文字符号化方式の事です。符号化文字集合をコンピュータ上でどう表現するかの規格です。
Unicode に対して UTF-8, UTF-16, UTF-32 等の表現がある感じだと思います。


以下は参考にしたサイトです。
Unicode - Wikipedia
文字集合 - Wikipedia
文字符号化方式 - Wikipedia

気づいた範囲で UTF-8, UTF-16, UTF-32 の比較


内部処理に使用するなら、UTF-32 が簡単そうに見える。

  • 固定長は実装が簡単そう。
  • 文字データを大量に扱うことはない。

Unicode の Code Charts

アルファベットの Unicode のコードチャートは以下のページで公開されています。
C0 Controls and Basic Latin(PDF)

ライブラリの Unicode 対応

  • ncurses は、対応済み。ncursesw をリンクすればいけます。
  • PDCurses は不明。おそらく対応していないと思われます。

rogueclone2s の方針

  • 内部処理は UTF-32を軸にしようと思います。
  • curses を使って描写する部分で、各文字コードに変換します。