<rt id="bn8ez"></rt>

<label id="bn8ez"></label>

<span id="bn8ez"></span>

<label id="bn8ez"><meter id="bn8ez"></meter></label>

<bdo id="somao"></bdo>

<center id="somao"></center>

webjlwang~'BLOG
BlogJava \| 首頁 \| 發新隨筆 \| 發新文章 \| 聯系 \| 聚合 \| 管理	隨筆：48 文章：3 評論：91 引用：0

談談對Java中Unicode、編碼的理解(轉)

談談我對Java中Unicode、編碼的理解

我們經常會遇到編碼問題。Java號稱國際化的語言，是因為它的class文件采用UTF-8，而JVM運行時使用UTF-16（至于為什么JVM中要采用UTF-16，我沒看過相關的資料，但我猜可能是因為JAVA里面一個字符(char)就是16位的，而UTF-16正是雙字節編碼），都是unicode的編碼。

unicode 的目標就是能支持世界上所有的字符集，也就是說幾乎所有的字符集包含的字符在unicode中都有對應的編碼。在unicode中，字符與代碼的映射關系，就是unicode字符集，稱為UCS(Unicode Character Set)，每個unicode字符編碼稱為code point（代碼點？）。UTF-8和UTF-16是不同的UCS編碼方法，UTF就是UCS Transformation Format。;

在Java 中，String的getBytes()方法就是對特定的字符串(unicode)按照給定的字符集進行編碼（encode），new String()則可以按照某個字符集將字節流轉換回unicode（decode）。Java里面的每一個String都是unicode編碼。

再來看頁面，如果不做特殊處理，Form的提交就按照頁面的ContentType設置中的字符集進行編碼轉換，發送到后臺，后臺必須利用req.setCharacterEncoding來指定參數的編碼格式(不同的應用服務器應有不同的指定方式)，才能正確解碼。

Java 里面的encode和decode都是相對于unicode而言的，encode的意思是將char[] --> XXX Encoding byte[]，decode就是由XXX Encoding byte[] --> char[]。平常，當我們說“將GBK編碼轉換為UTF-8編碼”的時候，實際的意思就是：GBK Encoding byte[] --> UTF-8 Encoding byte[]，這種轉換只有在需要用byte[]傳輸數據的時候才有意義，否則便是毫無意義的。

首先要說明的一點是：Java中的String對象就是一個unicode編碼的字符串。

但是，我們通常會聽到有人說：“我們需要將String由ISO-8859-1轉換為GBK編碼”，這又是怎么回事呢？實際上，我們并不是要“將一個由ISO-8859-1編碼的String轉換為GBK編碼的String”，反復說明的是，JAVA中的String都是unicode編碼的，所以不存在“ISO- 8859-1編碼的String”或“GBK編碼的String”這樣的說法。而需要轉換的唯一的原因是String進行了錯誤的編碼。我們經常會碰到由ISO-8859- 1轉換為諸如GBK/UTF-8等等這樣的需求。所謂的轉換過程是：String --> byte[] -->String。
也許你非常清楚這個過程的代碼：new String(text.getBytes("ISO-8859-1"),"GBK")。但是，要真正理解起來并不是那么簡單。表面上看似乎很容易理解，不就是將text String對象按照ISO-8859-1的方式編碼為byte[]然后再把它按照GBK的方式轉換為String嗎？但是這句代碼很容易會被誤解為： “將text String由ISO-8859-1轉換為GBK編碼”，這種說法是錯誤的。難道你見過用這樣的代碼：new String(text.getBytes("GBK"),"UTF-8")來對String進行編碼轉換的嗎？

之所以你會經?？吹?/span>new String(text.getBytes("ISO-8859-1"),"GBK")這句代碼，是因為一個GBK的字節流被錯誤地以ISO-8859- 1的方式轉換為String（unicode）了！發生這種情況最普遍的地方是一個GBK編碼的網頁向后臺提交數據的時候，就有可能會看到這句代碼的出現。GBK的流被錯誤的當成ISO8859-1的流，所以便得到了一個錯誤的String。由于ISO8859-1是單字節編碼，所以每個字節被按照原樣轉換為String，也就是說，雖然這是一個錯誤的轉換，但編碼沒有改變，所以我們仍然有機會把編碼轉換回來！所以那句經典的new String(text.getBytes("ISO-8859-1"),"GBK")便出現了。

如果系統誤以為是其它編碼格式，就有可能再也轉換不回來了，因為編碼轉換并不是負負得正那么簡單的

發表于 2011-07-26 14:00 webjlwang 閱讀(394) 評論(0) 編輯收藏

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理

2011年7月

日

一

二

三

四

五

六

26

27

28

29

30

1

2

3

5

6

7

8

9

10

12

13

14

15

16

17

18

19

20

21

22

23

24

25

27

28

29

30

31

1

2

3

4

5

6

常用鏈接

留言簿(12)

隨筆分類

隨筆檔案

文章分類

文章檔案

相冊

我的照片

收藏夾

我的收藏夾 (rss)

好友的blog

APACHE WEB SERVER 中文
DBA Notes
以前的blog
工作流牛人的blog
水中的冰片
江南白衣的blog

技術網站

InfoQ中文

搜索

積分與排名

積分 - 86865
排名 - 663

最新評論

1.?re: 輕量級消息(MQ)服務器Kestrel 和 Redis
評論內容較長,點擊標題查看
--cleocn@gmail.com
2.?re: Openfire支持視頻了
@糖糖
解決可以聯系我嗎 liu_jun_y#163.com
--liu_jun_y
3.?re: Openfire支持視頻了
@糖糖
解決了嗎
--liu_jun_y
4.?re: Openfire支持視頻了
評論內容較長,點擊標題查看
--糖糖
5.?re: Openfire支持視頻了
為什么我的會出現404錯誤
--糖糖

閱讀排行榜

評論排行榜

主站蜘蛛池模板：免费AA片少妇人AA片直播| 国产情侣久久久久aⅴ免费| A在线观看免费网站大全| 亚洲国产日韩一区高清在线| 精品国产呦系列在线观看免费 | 鲁丝片一区二区三区免费| 中文字幕在线亚洲精品| 无码免费又爽又高潮喷水的视频 | 亚洲中文字幕无码不卡电影| 一级做a爱过程免费视| 亚洲日本一区二区一本一道| 五月天国产成人AV免费观看| 亚洲精品老司机在线观看| 一级毛片不卡免费看老司机| 久久亚洲2019中文字幕| 久久久免费观成人影院| 国产亚洲综合色就色| 热re99久久6国产精品免费| 亚洲成人免费网址| 国语成本人片免费av无码| 亚洲av综合av一区二区三区| 免费中文字幕不卡视频| 一区二区三区免费高清视频| 亚洲国产成人片在线观看无码| 无码国产精品一区二区免费式芒果 | 永久久久免费浮力影院| 日本黄页网址在线看免费不卡| 国产成人亚洲精品影院| 一级毛片免费观看| 亚洲综合偷自成人网第页色| 日本免费福利视频| 香蕉视频在线免费看| 亚洲电影免费观看| 免费在线观看亚洲| 国产免费拔擦拔擦8X高清在线人| 亚洲综合久久久久久中文字幕| 午夜时刻免费入口| 两个人日本免费完整版在线观看1 两个人的视频www免费 | 亚洲中文字幕无码爆乳| 亚洲AV无码乱码精品国产| 鲁丝片一区二区三区免费|

<nav id="wwgwq"></nav>

<noscript id="wwgwq"><wbr id="wwgwq"></wbr></noscript>