亚洲日韩av无码中文,亚洲欧美一区二区三区日产,亚洲精品网站在线观看你懂的

Unicode解決方案
Unicode：寬字節字符集(摘自windows核心編程)

Unicode是Apple和Xerox公司于1988年建立的一個技術標準。1991年，成立了一個集團機構負責Unicode的開發和推廣應用。該集團由Apple、Compaq、IBM、Microsoft、Oracle、Silicon ? Graphics, ? Inc.、Sybase、Unisys和Xerox等公司組成。該集團負責維護Unicode標準。
Unicode提供了一種簡單而又一致的表示字符串的方法。Unicode字符串中的所有字符都是16位的（兩個字節）。它沒有專門的字節來指明下一個字節是屬于同一個字符的組成部分，還是一個新字符。這意味著你只需要對指針進行遞增或遞減，就可以遍歷字符串中的各個字符,不再需要調用CharNext之類的函數。由于Unicode用一個16位的值來表示每個字符，因此總共可以得到65000個字符，這樣，它就能夠對世界各國的書面文字中的所有字符進行編碼，遠遠超過了單字節字符集的256個字符的數目。

我們面臨的基本問題是世界上的書寫語言不能簡單地用256個8位代碼表示。以前的解決方案包括代碼頁和DBCS已被證明是不能滿足需要的，而且也是笨拙的。那什么才是真正的解決方案呢？

身為程序編寫者，我們經歷過這類問題。如果事情太多，用8位數值已經不能表示，那么我們就試更寬的值，例如16位值。而且這很有趣的，正是Unicode被制定的原因。與混亂的256個字符代碼映像，以及含有一些1字節代碼和一些2字節代碼的雙字節字符集不同，Unicode是統一的16位系統，這樣就允許表示65,536個字符。這對表示所有字符及世界上使用象形文字的語言，包括一系列的數學、符號和貨幣單位符號的集合來說是充裕的。

明白Unicode和DBCS之間的區別很重要。Unicode使用（特別在C程序設計語言環境里）“寬字符集”。“Unicode中的每個字符都是16位寬而不是8位寬。”在Unicode中，沒有單單使用8位數值的意義存在。相比之下，在雙字節字符集中我們仍然處理8位數值。有些字節自身定義字符，而某些字節則顯示需要和另一個字節共同定義一個字符。

處理DBCS字符串非常雜亂，但是處理Unicode文字則像處理有秩序的文字。您也許會高興地知道前128個Unicode字符（16位代碼從0x0000到0x007F）就是ASCII字符，而接下來的128個Unicode字符（代碼從0x0080到0x00FF）是ISO ? 8859-1對ASCII的擴展。Unicode中不同部分的字符都同樣基于現有的標準。這是為了便于轉換。希臘字母表使用從0x0370到0x03FF的代碼，斯拉夫語使用從0x0400到0x04FF的代碼，美國使用從0x0530到0x058F的代碼，希伯來語使用從0x0590到0x05FF的代碼。中國、日本和韓國的象形文字（總稱為CJK）占用了從0x3000到0x9FFF的代碼。

Unicode的最大好處是這里只有一個字符集，沒有一點含糊。Unicode實際上是個人計算機行業中幾乎每個重要公司共同合作的結果，并且它與ISO ? 10646-1標準中的代碼是一一對應的。Unicode的重要參考文獻是《The ? Unicode ? Standard，Version ? 2.0》（Addison-Wesley出版社，1996年）。這是一本特別的書，它以其它文件少有的方式顯示了世界上書寫語言的豐富性和多樣性。此外，該書還提供了開發Unicode的基本原理和細節。

Unicode有缺點嗎？當然有。Unicode字符串占用的內存是ASCII字符串的兩倍。（然而壓縮文件有助于極大地減少文件所占的磁盤空間。）但也許最糟的缺點是：人們相對來說還不習慣使用Unicode。身為程序編寫者，這就是我們的工作

posted on 2006-03-27 17:49 xnabx 閱讀(148) 評論(0) 編輯收藏

常用鏈接

留言簿(1)

隨筆分類

隨筆檔案

文章分類

文章檔案

相冊

Ajax

Hibernate

Java

數據庫

門戶

最新隨筆

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理