UTF-8は8ビットを単位とするUnicodeのエンコーディングです(UTF = Unicode transformation format / UCS transformation format)。Ken Thompson が1992年に考案し,RFC 2279(1998)で6バイトまでのもの,RFC 3629(2003)で4バイトまでのものが定められています。
次の表は4バイトまで(6バイトまで)のUTF-8の原理を表したものです。
| 0000-007F | 0xxxxxxx |
| 0080-07FF | 110xxxxx 10xxxxxx |
| 0800-FFFF | 1110xxxx 10xxxxxx 10xxxxxx |
| 10000-10FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx |
| 200000-3FFFFFF | 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx |
| 4000000-7FFFFFFF | 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx |
Last modified: 2007-08-05 15:42:58