<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    qileilove

    blog已經轉移至github,大家請訪問 http://qaseven.github.io/

    Java字符編碼根本原理

     Java開發中,常常會遇到亂碼的問題,一旦遇到這種問題,常常就很扯蛋,每個人都不愿意承認是自己的代碼有問題。其實編碼問題并沒有那么神秘,那么不可捉摸,搞清Java的編碼本質過程就真相大白了。

      先看個圖:

      其實,編碼問題存在兩個方面:JVM之內和JVM之外。

      1、Java文件編譯后形成class

      這里Java文件的編碼可能有多種多樣,但Java編譯器會自動將這些編碼按照Java文件的編碼格式正確讀取后產生class文件,這里的class文件編碼是Unicode編碼(具體說是UTF-16編碼)。

      因此,在Java代碼中定義一個字符串:

      String s="漢字";

      不管在編譯前java文件使用何種編碼,在編譯后成class后,他們都是一樣的----Unicode編碼表示。

      2、JVM中的編碼

      JVM加載class文件讀取時候使用Unicode編碼方式正確讀取class文件,那么原來定義的String s="漢字";在內存中的表現形式是Unicode編碼。

      當調用String.getBytes()的時候,其實已經為亂碼買下了禍根。因為此方法使用平臺默認的字符集來獲取字符串對應的字節數組。在WindowsXP中文版中,使用的默認編碼是GBK,不信運行下:

  • public class Test {   
  • public static void main(String[] args) {   
  • System.out.println("當前JRE:" + System.getProperty("java.version"));   
  • System.out.println("當前JVM的默認字符集:" + Charset.defaultCharset());   
  • }   
  • }
  •   當前JRE:1.6.0_16

      當前JVM的默認字符集:GBK

      當不同的系統、數據庫經過多次編碼后,如果對其中的原理不理解,就容易導致亂碼。因此,在一個系統中,有必要對字符串的編碼做一個統一,這個統一模糊點說,就是對外統一。比如方法字符串參數,IO流,在中文系統中,可以統一使用GBK、GB13080、UTF-8、UTF-16等等都可以,只是要選擇有些更大字符集,以保證任何可能用到的字符都可以正常顯示,避免亂碼的問題。(假設對所有的文件都用ASCII碼)那么就無法實現雙向轉換了。

     要特別注意的是,UTF-8并非能容納了所有的中文字符集編碼,因此,在特殊情況下,UTF-8轉GB18030可能會出現亂碼,然而一群傻B常常在做中文系統喜歡用UTF-8編碼而不說不出個所以然出來!最傻B的是,一個系統多個人做,源代碼文件有的人用GBK編碼,有人用UTF-8,還有人用GB18030。FK,都是中國人,也不是外包項目,用什么UTF-8啊,神經!源代碼統統都用GBK18030就OK了,免得ANT腳本編譯時候提示不可認的字符編碼。

      因此,對于中文系統來說,最好選擇GBK或GB18030編碼(其實GBK是GB18030的子集),以便最大限度的避免亂碼現象。

      3、內存中字符串的編碼

      內存中的字符串不僅僅局限于從class代碼中直接加載而來的字符串,還有一些字符串是從文本文件中讀取的,還有的是通過數據庫讀取的,還有可能是從字節數組構建的,然而他們基本上都不是Unicode編碼的,原因很簡單,存儲優化。

      因此就需要處理各種各樣的編碼問題,在處理之前,必須明確“源”的編碼,然后用指定的編碼方式正確讀取到內存中。如果是一個方法的參數,實際上必須明確該字符串參數的編碼,因為這個參數可能是另外一個日文系統傳遞過來的。當明確了字符串編碼時候,就可以按照要求正確處理字符串,以避免亂碼。

      在對字符串進行解碼編碼的時候,應該調用下面的方法:

  • getBytes(String charsetName)   
  • String(byte[] bytes, String charsetName)
  •   而不要使用那些不帶字符集名稱的方法簽名,通過上面兩個方法,可以對內存中的字符進行重新編碼。

    posted on 2011-12-20 14:26 順其自然EVO 閱讀(221) 評論(0)  編輯  收藏


    只有注冊用戶登錄后才能發表評論。


    網站導航:
     
    <2011年12月>
    27282930123
    45678910
    11121314151617
    18192021222324
    25262728293031
    1234567

    導航

    統計

    常用鏈接

    留言簿(55)

    隨筆分類

    隨筆檔案

    文章分類

    文章檔案

    搜索

    最新評論

    閱讀排行榜

    評論排行榜

    主站蜘蛛池模板: 亚洲国产成人乱码精品女人久久久不卡 | 亚洲狠狠婷婷综合久久久久| 亚洲最大的成人网站| 亚洲精品免费在线视频| 亚洲国产精品久久久久网站| 免费看又黄又无码的网站| 亚洲国产高清在线| 永久在线观看www免费视频| 99久久亚洲综合精品成人网| 69影院毛片免费观看视频在线| 亚洲黄色高清视频| 啦啦啦中文在线观看电视剧免费版 | 亚洲狠狠ady亚洲精品大秀| 2021在线观看视频精品免费| 亚洲人成免费网站| 午夜男人一级毛片免费 | 国内永久免费crm系统z在线 | 亚洲Av综合色区无码专区桃色| a成人毛片免费观看| 亚洲自偷自拍另类12p| 久久精品免费全国观看国产| 亚洲成av人在线观看网站| 亚洲成av人在片观看| 永久免费av无码入口国语片| 亚洲成av人片不卡无码| 国产高清在线精品免费软件| 一级毛片一级毛片免费毛片| 亚洲AV无码久久精品成人| 永久免费av无码网站韩国毛片| 国产区图片区小说区亚洲区| 亚洲日韩精品无码一区二区三区| 99re免费99re在线视频手机版| 在线观看亚洲AV日韩A∨| 亚洲综合国产精品第一页| 国产精品偷伦视频观看免费 | 国产亚洲sss在线播放| 亚洲v国产v天堂a无码久久| 一级毛片在线免费观看| 色欲aⅴ亚洲情无码AV蜜桃| 久久亚洲精品视频| 好吊妞788免费视频播放|