久久国产亚洲电影天堂,国产av无码专区亚洲av毛片搜,亚洲最大福利视频

Java中的字符集編碼入門（六）Java中的增補(bǔ)字符

Java號(hào)稱對(duì)Unicode提供天然的支持，這話在很久很久以前就已經(jīng)是假的了（不過(guò)曾經(jīng)是真的），實(shí)際上，到JDK5.0為止，Java才算剛剛跟上Unicode的腳步，開(kāi)始提供對(duì)增補(bǔ)字符的支持。
現(xiàn)在的Unicode碼空間為U+0000到U+10FFFF，一共1114112個(gè)碼位，其中只有1,112,064 個(gè)碼位是合法的（我來(lái)替你做算術(shù)，有2048個(gè)碼位不合法），但并不是說(shuō)現(xiàn)在的Unicode就有這么多個(gè)字符了，實(shí)際上其中很多碼位還是空閑的，到Unicode 4.0 規(guī)范為止，只有96,382個(gè)碼位被分配了字符（但無(wú)論如何，仍比很多人認(rèn)為的65536個(gè)字符要多得多了）。其中U+0000 到U+FFFF的部分被稱為基本多語(yǔ)言面（Basic Multilingual Plane，BMP）。U+10000及以上的字符稱為補(bǔ)充字符。在Java中（Java1.5之后），補(bǔ)充字符使用兩個(gè)char型變量來(lái)表示，這兩個(gè)char型變量就組成了所謂的surrogate pair（在底層實(shí)際上是使用一個(gè)int進(jìn)行表示的）。第一個(gè)char型變量的范圍稱為“高代理部分”（high-surrogates range,從"uD800到"uDBFF，共1024個(gè)碼位）, 第二個(gè)char型變量的范圍稱為low-surrogates range（從"uDC00到"uDFFF，共1024個(gè)碼位），這樣使用surrogate pair可以表示的字符數(shù)一共是1024的平方計(jì)1048576個(gè)，加上BMP的65536個(gè)碼位，去掉2048個(gè)非法的碼位，正好是1,112,064個(gè)碼位。

關(guān)于Unicode的碼空間實(shí)際上有一些稍不小心就會(huì)讓人犯錯(cuò)的地方。比如我們都知道從U+0000到U+FFFF的部分被稱為基本多語(yǔ)言面（Basic Multilingual Plane，BMP），這個(gè)范圍內(nèi)的字符在使用UTF-16編碼時(shí)，只需要一個(gè)char型變量就可以保存。仔細(xì)看看這個(gè)范圍，應(yīng)該有65536這么大，因此你會(huì)說(shuō)單字節(jié)的UTF-16編碼能夠表示65536個(gè)字符，你也會(huì)說(shuō)Unicode的基本多語(yǔ)言面包含65536個(gè)字符，但是再想想剛才說(shuō)過(guò)的surrogate pair，一個(gè)UTF-16表示的增補(bǔ)字符（再一次的，需要兩個(gè)char型變量才能表示的字符）怎樣才能被正確的識(shí)別為增補(bǔ)字符，而不是兩個(gè)普通的字符呢？答案你也知道，就是通過(guò)看它的第一個(gè)char是不是在高代理范圍內(nèi)，第二個(gè)char是不是在低代理范圍內(nèi)來(lái)決定，這也意味著，高代理和低代理所占的共2048個(gè)碼位（從0xD800到0xDFFF）是不能分配給其他字符的。
但這是對(duì)UTF-16這種編碼方法而言，而對(duì)Unicode這樣的字符集呢？在Unicode的編號(hào)中，U+D800到U+DFFF是否有字符分配？答案是也沒(méi)有！這是典型的字符集為方便編碼方法而做的安排（你問(wèn)他們這么做的目的？當(dāng)然是希望基本多語(yǔ)言面中的字符和一個(gè)char型的UTF-16編碼的字符能夠一一對(duì)應(yīng)，少些麻煩，從中我們也能看出UTF-16與Unicode間很深的淵源與結(jié)合）。也就是說(shuō)，無(wú)論Unicode還是UTF-16編碼后的字符，在0x0000至0xFFFF這個(gè)范圍內(nèi)，只有63488個(gè)字符。這就好比最初的CPU被勉強(qiáng)拿來(lái)做多媒體應(yīng)用，用得多了，CPU就不得不修正自己從硬件上對(duì)多媒體應(yīng)用提供支持了。

盡管不情愿，但說(shuō)到這里總還得扯扯相關(guān)的概念：代碼點(diǎn)和代碼單元。
代碼點(diǎn)（Code Point）就是指Unicode中為字符分配的編號(hào)，一個(gè)字符只占一個(gè)代碼點(diǎn)，例如我們說(shuō)到字符“漢”，它的代碼點(diǎn)是U+6C49。
代碼單元（Code Unit）則是針對(duì)編碼方法而言，它指的是編碼方法中對(duì)一個(gè)字符編碼以后所占的最小存儲(chǔ)單元。例如UTF-8中，代碼單元是一個(gè)字節(jié)，因?yàn)橐粋€(gè)字符可以被編碼為1個(gè)，2個(gè)或者3個(gè)4個(gè)字節(jié)；在UTF-16中，代碼單元變成了兩個(gè)字節(jié)（就是一個(gè)char），因?yàn)橐粋€(gè)字符可以被編碼為1個(gè)或2個(gè)char（你找不到比一個(gè)char還小的UTF-16編碼的字符，嘿嘿）。說(shuō)得再羅嗦一點(diǎn)，一個(gè)字符，僅僅對(duì)應(yīng)一個(gè)代碼點(diǎn)，但卻可能有多個(gè)代碼單元（即可能被編碼為2個(gè)char）。
以上概念絕非學(xué)術(shù)化的繞口令，這意味著當(dāng)你想以一種統(tǒng)一的方式指定自己使用什么字符的時(shí)候，使用代碼點(diǎn)（即你告訴你的程序，你要用Unicode中的第幾個(gè)字符）總是比使用代碼單元更好（因?yàn)檫@樣做的話你還得區(qū)分情況，有時(shí)候提供一個(gè)16進(jìn)制數(shù)字，有時(shí)候要提供兩個(gè)）。
例如我們有一個(gè)增補(bǔ)字符？？？（哈哈，你看到了三個(gè)問(wèn)號(hào)對(duì)吧？因?yàn)槲业南到y(tǒng)顯示不出這個(gè)字符），它在Unicode中的編號(hào)是U+2F81A，當(dāng)在程序中需要使用這個(gè)字符的時(shí)候，就可以這樣來(lái)寫：

String s=String.valueOf(Character.toChars(0x2F81A));
char[]chars=s.toCharArray();
for(char c:chars){
System.out.format("%x",(short)c);
}

后面的for循環(huán)把這個(gè)字符的UTF-16編碼打印了出來(lái)，結(jié)果是
d87edc1a
注意到了嗎？這個(gè)字符變成了兩個(gè)char型變量，其中0xd87e就是高代理部分的值，0xdc1a就是低代理的值。

發(fā)表于 2009-01-05 11:12 Jasper 閱讀(3934) 評(píng)論(4) 編輯收藏所屬分類: 文本分類技術(shù) 、Java技術(shù)

評(píng)論

# re: Java中的字符集編碼入門（六）Java中的增補(bǔ)字符[未登錄](méi)

Character.toChars，又學(xué)了個(gè)方法，參數(shù)是代碼點(diǎn)吧。
恩，什么時(shí)候講講new String(,)的第二個(gè)參數(shù)

Matthew Chen 評(píng)論于 2009-01-05 14:59 回復(fù) 更多評(píng)論

# re: Java中的字符集編碼入門（六）Java中的增補(bǔ)字符

開(kāi)玩笑呢吧，d87edc1a是兩個(gè)char型變量？不是吧，您怎么用一個(gè)char表示d87e？能否說(shuō)一下

徐堯評(píng)論于 2009-01-05 19:50 回復(fù) 更多評(píng)論

# re: Java中的字符集編碼入門（六）Java中的增補(bǔ)字符

@徐堯
java中的char是2個(gè)字節(jié)的。

zzq 評(píng)論于 2009-01-06 16:12 回復(fù) 更多評(píng)論

# re: Java中的字符集編碼入門（六）Java中的增補(bǔ)字符[未登錄](méi)

UTF-8 采用變長(zhǎng)度字節(jié)來(lái)表示字符，理論上最多可以到 6 個(gè)字節(jié)長(zhǎng)度(一個(gè)字符六個(gè)字節(jié))。
UTF-8 編碼兼容了 ASC II(0-127)，也就是說(shuō) UTF-8 對(duì)于 ASC II 字符的編碼是和 ASC II 一樣的。
對(duì)于超過(guò)一個(gè)字節(jié)長(zhǎng)度的字符，才用以下編碼規(guī)范：
左邊第一個(gè)字節(jié)1的個(gè)數(shù)表示這個(gè)字符編碼字節(jié)的位數(shù)，
例如兩位字節(jié)字符編碼樣式為為：110xxxxx 10xxxxxx；
三位字節(jié)字符的編碼樣式為：1110xxxx 10xxxxxx 10xxxxxx.；
以此類推，六位字節(jié)字符的編碼樣式為：1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx。
xxx 的值由字符編碼的二進(jìn)制表示的位填入。只用最短的那個(gè)足夠表達(dá)一個(gè)字符編碼的多字節(jié)串。
例如：
Unicode 字符： 00 A9（版權(quán)符號(hào)） = 1010 1001，
UTF-8 編碼為：11000010 10101001 = 0x C2 0xA9;
字符 22 60 (不等于符號(hào)) = 0010 0010 0110 0000，
UTF-8 編碼為：11100010 10001001 10100000 = 0xE2 0x89 0xA0

UTF-8的編碼原理和特性：

U+0000~U+007E 1 _ _ _ _ _ _ _ (7bits)

U+0080~U+07FF 1 1 0_ _ _ _ _ 1 0_ _ _ _ _ _ (11bits)

U+0800~U+FFFF 1 1 1 0 _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _ (16bits)

Matthew Chen 評(píng)論于 2009-01-10 09:48 回復(fù) 更多評(píng)論

新用戶注冊(cè) 刷新評(píng)論列表


只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問(wèn) 管理
相關(guān)文章: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別 SVM入門（十）將SVM用于多類分類文本分類入門（十一）特征選擇方法之信息增益 SVM入門（九）松弛變量（續(xù)） SVM入門（八）松弛變量 SVM入門（七）為何需要核函數(shù) SVM入門（六）線性分類器的求解——問(wèn)題的轉(zhuǎn)化，直觀角度 SVM入門（五）線性分類器的求解——問(wèn)題的描述Part2 SVM入門（四）線性分類器的求解——問(wèn)題的描述Part1 SVM入門（一）至（三）Refresh

文章分類

搜索

最新評(píng)論

1.?re: Java中NaN和-0.0f的比較問(wèn)題
@lele685
答案是1，而不是-1，博主寫錯(cuò)了
--小稀稀和她的小摩的
2.?re: 文本分類入門（十一）特征選擇方法之信息增益[未登錄](méi)
只適用于二元特征屬性的情況，也就說(shuō)特征只能取值0或者1
--wonderful
3.?re: SVM入門（十）將SVM用于多類分類
6年前的文章。。現(xiàn)在看依舊不過(guò)時(shí)。。。能把高深的問(wèn)題講得通俗易懂。。
實(shí)力可見(jiàn)一斑。收下我的膝蓋
--固執(zhí)的蝸牛
4.?re: SVM入門（十）將SVM用于多類分類
不知為何博主的博客不更新了，好可惜。
謝謝博主的文章，你的SVM系列讓我真正理解了SVM。
--cal
5.?re: 文本分類入門(五)訓(xùn)練Part 2
請(qǐng)問(wèn)對(duì)于測(cè)試集的特征提取方法和訓(xùn)練集相同么？
我有個(gè)疑問(wèn)，如果用開(kāi)方的方法提取的話，不是需要知道某一個(gè)特征是否出現(xiàn)在某個(gè)類別里么？
但是測(cè)試集并不知道這個(gè)信息呀。
--prejudice

閱讀排行榜

評(píng)論排行榜

Java中的字符集編碼入門（六）Java中的增補(bǔ)字符

公告

常用鏈接

留言簿(64)

隨筆分類

隨筆檔案

文章分類

搜索

最新評(píng)論

閱讀排行榜

評(píng)論排行榜

Jasper's Java Jacal 嘉士伯的Java小屋
BlogJava \| 首頁(yè) \| 發(fā)新隨筆 \| 發(fā)新文章 \| 聯(lián)系 \| 聚合 \| 管理	隨筆：51 文章：2 評(píng)論：717 引用：0