tim-wu
備忘: UTF-8的格式
http://www.google.com/search?hl=zh-CN&q=UTF-8+0x7FF&btnG=Google+%E6%90%9C%E7%B4%A2&lr=
java中一個(gè)char對(duì)應(yīng)一個(gè)int,長(zhǎng)度為32bit
而utf-8保存一個(gè)char時(shí),長(zhǎng)度為1-3個(gè)byte,也就是8bit-24bit。
其中code<= 0x7F的,保存為1個(gè)byte
(code >= 0x80) && (code <= 0x7FF)的,保存為2個(gè)byte
code>0x800的,保存為3個(gè)byte
因此lucene中,IndexOutput.writeChars()函數(shù)的代碼為
public
void
writeChars(String s,
int
start,
int
length)
throws
IOException
{
final
int
end
=
start
+
length;
for
(
int
i
=
start; i
<
end; i
++
)
{
final
int
code
=
(
int
) s.charAt(i);
if
(code
>=
0x01
&&
code
<=
0x7F
)
writeByte((
byte
) code);
else
if
(((code
>=
0x80
)
&&
(code
<=
0x7FF
))
||
code
==
0
)
{
writeByte((
byte
) (
0xC0
|
(code
>>
6
)));
writeByte((
byte
) (
0x80
|
(code
&
0x3F
)));
}
else
{
writeByte((
byte
) (
0xE0
|
(code
>>>
12
)));
writeByte((
byte
) (
0x80
|
((code
>>
6
)
&
0x3F
)));
writeByte((
byte
) (
0x80
|
(code
&
0x3F
)));
}
}
}
發(fā)表于 2007-09-12 17:19
鵬飛萬(wàn)里
閱讀(717)
評(píng)論(3)
編輯
收藏
評(píng)論
#
re: 備忘: UTF-8的格式
修正一下,還有4 bytes的utf-8字符集
http://m.tkk7.com/tim-wu/archive/2007/12/07/165989.html
鵬飛萬(wàn)里
評(píng)論于 2008-01-09 17:37
回復(fù)
更多評(píng)論
#
re: 備忘: UTF-8的格式
從這看出Lucene只支持到了BMP(3 bytes utf-8),估計(jì)是因?yàn)镴2SE 1.4中的字符處理是基于Unicode 3.0標(biāo)準(zhǔn)的。
目前完整的unicode需要4 bytes utf-8才能實(shí)現(xiàn)。
參考
http://zh.wikipedia.org/wiki/UTF-8
http://m.tkk7.com/tim-wu/archive/2008/01/25/177788.html
另:
Java 1.0 supports Unicode version 1.1.
Java 1.1 onwards supports Unicode version 2.0.
J2SE 1.4中的字符處理是基于Unicode 3.0標(biāo)準(zhǔn)的。
J2SE v 1.5 supports Unicode 4.0 character set.
而:
Unicode 3.0:1999年九月;涵蓋了來(lái)自ISO 10646-1的十六位元通用字元集(UCS)基本多文種平面(Basic Multilingual Plane)
Unicode 3.1:2001年三月;新增從ISO 10646-2定義的輔助平面(Supplementary Planes)
鵬飛萬(wàn)里
評(píng)論于 2008-01-25 22:29
回復(fù)
更多評(píng)論
#
re: 備忘: UTF-8的格式
補(bǔ)充:
BMP中約定了:
D800-DBFF:High-half zone of UTF-16
DC00-DFFF:Low-half zone of UTF-16
因此UTF-8中約定,D800-DFFF無(wú)意義。
當(dāng)然,這兒lucene的實(shí)現(xiàn)是可靠的并且可逆的轉(zhuǎn)換,但它其實(shí)使用2個(gè)UTF-8來(lái)表示本應(yīng)該用一個(gè)4 bytes 來(lái)表示的UTF-8符,也就是輔助平面的字符
BMP
http://zh.wikipedia.org/w/index.php?title=%E5%9F%BA%E6%9C%AC%E5%A4%9A%E6%96%87%E7%A8%AE%E5%B9%B3%E9%9D%A2&variant=zh-cn
輔助平面
http://zh.wikipedia.org/wiki/%E8%BE%85%E5%8A%A9%E5%B9%B3%E9%9D%A2
鵬飛萬(wàn)里
評(píng)論于 2008-01-26 01:34
回復(fù)
更多評(píng)論
新用戶注冊(cè)
刷新評(píng)論列表
只有注冊(cè)用戶
登錄
后才能發(fā)表評(píng)論。
網(wǎng)站導(dǎo)航:
博客園
IT新聞
Chat2DB
C++博客
博問(wèn)
管理
<
2008年1月
>
日
一
二
三
四
五
六
30
31
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
5
6
7
8
9
導(dǎo)航
BlogJava
首頁(yè)
發(fā)新隨筆
發(fā)新文章
聯(lián)系
聚合
管理
統(tǒng)計(jì)
隨筆: 28
文章: 0
評(píng)論: 38
引用: 1
常用鏈接
我的隨筆
我的評(píng)論
我的參與
最新評(píng)論
留言簿
(4)
給我留言
查看公開留言
查看私人留言
我參與的團(tuán)隊(duì)
WebGIS開發(fā)設(shè)計(jì)組(0/0)
隨筆檔案
2008年2月 (4)
2008年1月 (6)
2007年12月 (2)
2007年11月 (2)
2007年9月 (8)
2007年3月 (1)
2006年5月 (4)
2006年4月 (1)
搜索
最新評(píng)論
1.?re: 關(guān)于Javascript的內(nèi)存泄漏問(wèn)題的整理稿
很有幫助!謝謝
--selma
2.?re: 關(guān)于Javascript的內(nèi)存泄漏問(wèn)題的整理稿
對(duì)象是值傳遞的,所以第一段代碼不可能是js對(duì)象和dom對(duì)象的循環(huán)引用,而是dom自身的循環(huán)引用
--axiheyhey
3.?re: 關(guān)于Javascript的內(nèi)存泄漏問(wèn)題的整理稿[未登錄](méi)
評(píng)論內(nèi)容較長(zhǎng),點(diǎn)擊標(biāo)題查看
--鵬飛萬(wàn)里
4.?re: 關(guān)于Javascript的內(nèi)存泄漏問(wèn)題的整理稿
評(píng)論內(nèi)容較長(zhǎng),點(diǎn)擊標(biāo)題查看
--goofect
5.?re: 關(guān)于Javascript的內(nèi)存泄漏問(wèn)題的整理稿
評(píng)論內(nèi)容較長(zhǎng),點(diǎn)擊標(biāo)題查看
--goofect
閱讀排行榜
1.?關(guān)于Javascript的內(nèi)存泄漏問(wèn)題的整理稿(18605)
2.?關(guān)于google map api中的球平投影算法接口: GProjection和GMercatorProjection類(4823)
3.?Lucene如何控制segments的數(shù)量?(4673)
4.?javascript的prototype(2523)
5.?Java7 VB2008都開始支持Lambda(Closure)了(2362)
評(píng)論排行榜
1.?關(guān)于Javascript的內(nèi)存泄漏問(wèn)題的整理稿(17)
2.?關(guān)于google map api中的球平投影算法接口: GProjection和GMercatorProjection類(7)
3.?備忘: UTF-8的格式(3)
4.?Lucene如何控制segments的數(shù)量?(3)
5.?復(fù)雜度為log(n)的排序堆棧算法(2)
Powered by:
博客園
模板提供:
滬江博客
Copyright ©2025 鵬飛萬(wàn)里
主站蜘蛛池模板:
大学生美女毛片免费视频
|
亚洲日韩VA无码中文字幕
|
亚洲欧美国产欧美色欲
|
男人的天堂亚洲一区二区三区
|
亚洲av无码专区亚洲av不卡
|
亚洲色偷偷综合亚洲AVYP
|
一级毛片**不卡免费播
|
国内精品久久久久影院亚洲
|
免费人成网站在线播放
|
一级毛片aaaaaa免费看
|
精品女同一区二区三区免费播放
|
亚洲精品成人片在线观看精品字幕
|
亚洲Aⅴ无码专区在线观看q
|
一二三四在线播放免费观看中文版视频
|
青青久在线视频免费观看
|
国产亚洲福利精品一区二区
|
亚洲av无码乱码国产精品fc2
|
亚洲国产日韩成人综合天堂
|
91频在线观看免费大全
|
免费国产草莓视频在线观看黄
|
亚洲第一福利视频
|
日本免费一区二区三区最新
|
亚洲Aⅴ在线无码播放毛片一线天
|
亚洲情综合五月天
|
免费黄色app网站
|
亚洲精品免费视频
|
日韩在线观看免费
|
亚洲香蕉久久一区二区
|
国产精一品亚洲二区在线播放
|
最近中文字幕mv免费高清视频7
|
少妇性饥渴无码A区免费
|
精品久久久久久亚洲综合网
|
中文字幕亚洲综合精品一区
|
亚洲色偷偷综合亚洲AV伊人
|
美女网站免费福利视频
|
国内精品一级毛片免费看
|
老妇激情毛片免费
|
中国china体内裑精亚洲日本
|
亚洲精品免费在线
|
亚洲AV一宅男色影视
|
国产精品亚洲综合专区片高清久久久
|