UTF-8

UTF-8とは

UTF-8は8ビットを単位とするUnicodeのエンコーディングです(UTF = Unicode transformation format / UCS transformation format)。Ken Thompson が1992年に考案し,RFC 2279(1998)で6バイトまでのもの,RFC 3629(2003)で4バイトまでのものが定められています。

次の表は4バイトまで(6バイトまで)のUTF-8の原理を表したものです。

0000-007F0xxxxxxx
0080-07FF110xxxxx 10xxxxxx
0800-FFFF1110xxxx 10xxxxxx 10xxxxxx
10000-10FFFF11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
200000-3FFFFFF111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
4000000-7FFFFFFF1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

参考リンク


奥村晴彦

Last modified: 2007-08-05 15:42:58