韩国亚洲伊人久久综合影院,亚洲中文字幕久久精品无码A,亚洲H在线播放在线观看H

Sat, 01 Dec 2007 08:36:00 GMT

Q 什么是MIME�Q�什么是MIME邮�g�Q?

A MIME, 全称�?#8220;Multipurpose Internet Mail Extensions”, 比较��切的中文名�U�Cؓ“多用途互联网邮�g扩展”。它是当前广泛应用的一�U�电子邮件技术规范，基本内容定义于RFC 2045-2049�?

自然�Q�MIME邮�g��是�W�合MIME规范的电子邮�Ӟ��或者说�Ҏ��MIME规范�~�码而成的电子邮件�?

在MIME出台之前�Q��用RFC 822只能发送基本的ASCII码文本信息，邮�g内容如果要包括二�q�制文�g、声韛_��动画�{�，实现��h��非常困难。MIME提供了一�U�可以在邮�g中附加多�U�不同编码文件的�Ҏ��Q��I补了原来的信息格式的不��。实际上不仅仅是邮�g�~�码�Q�现在MIME�l�成为HTTP协议标准的一个部分�?

下面丑և�个MIME邮�g的例子，让我们先对MIME�~�码的格式有个直观的印象。例1是最��单的�Q�只带纯文本正文�Q�基本上��是RFC 822格式�Q�例2复杂一些，包含�U�文本和��文本正文；�?是最复杂的，包含�U�文本正文、超文本正文、内嵌资源和文�g附�g。其中，行号和行号后的空格是��Z�� 分析方便而另外加的，“... ... ... ...”表示此处省略了大�D늼�码�?

�?

   1 Date: Thu, 18 Apr 2002 09:32:45 +0800

2 From: 

3 To: 

4 Subject: Test

5 Mime-Version: 1.0

6 Content-Type: text/plain; charset="iso-8859-1"

7

8 This is a simple mail.

9

�?

   1 From: "bhw98" 

2 Reply-To: bhw98@sina.com

3 To: 

4 Subject: Re: help

5 X-Mailer: Foxmail 4.2 [cn]

6 Mime-Version: 1.0

7 Content-Type: multipart/alternative;

8  boundary="=====002_Dragon307572345230_====="

9

10

11 This is a multi-part message in MIME format.

12

13 --=====002_Dragon307572345230_=====

14 Content-Type: text/plain; charset="GB2312"

15 Content-Transfer-Encoding: quoted-printable

16

17 bluesky7810=A3=AC=C4=FA=BA=C3=A3=A1

18

19 =A1=A1=A1=A1=D4=DA=CF=C2=C6=AA=D7=EE=BA=F3=BF=C9=D2=D4=CF=C2=D4=D8=B0=A1=A3=AC=C4=E3

... ...  ... ...

30 =A1=A1=A1=A1=A1=A1=A1=A1=A1=A1=A1=A1=A1=A1=A1=A1=A1=A1=A1=A1=A1=A1=A1=A1=A12003-04-07

31

32 --=====002_Dragon307572345230_=====

33 Content-Type: text/html; charset="GB2312"

34 Content-Transfer-Encoding: quoted-printable

35

36 

37 

38 
39  http-equiv=3DContent-Type>

40 

... ...  ... ...

79 

80

81 --=====002_Dragon307572345230_=====--

82

�?

   1 Return-Path: 

2 Delivered-To: bhw98@sina.com

3 Received: (qmail 75513 invoked by alias); 20 May 2002 02:19:53 -0000

4 Received: from unknown (HELO bluesky) (61.155.118.135)

5   by 202.106.187.143 with SMTP; 20 May 2002 02:19:53 -0000

6 Message-ID: <007f01c3111c$742fec00$0100007f@bluesky>

7 From: "=?gb2312?B?wLbAtrXEzOwNCg==?=" 

8 To: "bhw98" 

9 Cc: 

10 Subject: =?gb2312?B?ztK1xLbgtK6/2rPM0PI=?=

11 Date: Sat, 20 May 2002 10:03:36 +0800

12 MIME-Version: 1.0

13 Content-Type: multipart/mixed;

14    boundary="----=_NextPart_000_007A_01C3115F.80DFC5E0"

15 X-Priority: 3

16 X-MSMail-Priority: Normal

17 X-Mailer: Microsoft Outlook Express 5.00.2919.6700

18 X-MimeOLE: Produced By Microsoft MimeOLE V5.00.2919.6700

19

20 This is a multi-part message in MIME format.

21

22 ------=_NextPart_000_007A_01C3115F.80DFC5E0

23 Content-Type: multipart/related; type="multipart/alternative";

24     boundary="----=_NextPart_001_007B_01C3115F.80DFC5E0"

25

26

27 ------=_NextPart_001_007B_01C3115F.80DFC5E0

28 Content-Type: multipart/alternative;

29     boundary="----=_NextPart_002_007C_01C3115F.80DFC5E0"

30

31 ------=_NextPart_002_007C_01C3115F.80DFC5E0

32 Content-Type: text/plain; charset="gb2312"

33 Content-Transfer-Encoding: quoted-printable

34

35 bhw98, =C4=E3=BA=C3!

36 =D5=E2=CA=C7=CE=D2=D0=B4=B5=C4=B6=E0=B4=AE=BF=DA=CD=A8=D0=C5=B5=C4=B3=CC=D0=

37 =F2, =C7=EB=D6=B8=BD=CC!

38

39

40 ------=_NextPart_002_007C_01C3115F.80DFC5E0

41 Content-Type: text/html; charset="gb2312"

42 Content-Transfer-Encoding: quoted-printable

43

44 

45 =C7=E7=C0=CA

46 

47 

52 

53 
54 bgColor=3D#ffffff>

55 

56 bhw98, =C4=E3=BA=C3!


57 =D5=E2=CA=C7=CE=D2=D0=B4=B5=C4=B6=E0=B4=AE=BF=DA=CD=A8=D0=C5=B5=C4=B3=CC=

58 =D0=F2, =C7=EB=D6=B8=BD=CC!


59  


60

61 ------=_NextPart_002_007C_01C3115F.80DFC5E0--

62

63 ------=_NextPart_001_007B_01C3115F.80DFC5E0

64 Content-Type: image/jpeg; name="=?gb2312?B?x+fAyrGzvrAuSlBH?="

65 Content-Transfer-Encoding: base64

66 Content-ID: <007901c3111c$72b978a0$0100007f@bluesky>

67

68 /9j/4AAQSkZJRgABAgEASABIAAD/7QVoUGhvdG9zaG9wIDMuMAA4QklNA+0AAAAAABAASAAAAAEA

69 AQBIAAAAAQABOEJJTQPzAAAAAAAIAAAAAAAAAAA4QklNBAoAAAAAAAEAADhCSU0nEAAAAAAACgAB

70 AAAAAAAAAAI4QklNA/UAAAAAAEgAL2ZmAAEAbGZmAAYAAAAAAAEAL2ZmAAEAoZmaAAYAAAAAAAEA

... ...  ... ...

169 RxVw98Vawq12xQ44q0cKtHFDWKGsKt4EtiuKt4q//9k=

170

171 ------=_NextPart_001_007B_01C3115F.80DFC5E0--

172

173 ------=_NextPart_000_007A_01C3115F.80DFC5E0

174 Content-Type: application/msword; name="readme.doc"

175 Content-Transfer-Encoding: base64

176 Content-Disposition: attachment; filename="readme.doc"

177

178 0M8R4KGxGuEAAAAAAAAAAAAAAAAAAAAAPgADAP7/CQAGAAAAAAAAAAAAAAABAAAAJgAAAAAAAAAA

179 EAAAKAAAAAEAAAD+////AAAAACUAAAD/////////////////////////////////////////////

180 ////////////////////////////////////////////////////////////////////////////

... ...  ... ...

1688 AAAAAAAAAAAAAAAAAAA=

1689

1690 ------=_NextPart_000_007A_01C3115F.80DFC5E0

1691 Content-Type: application/x-zip-compressed;

1692     name="=?gb2312?B?tuC0rr/azajQxbXE1LTC6y56aXA=?="

1693 Content-Transfer-Encoding: base64

1694 Content-Disposition: attachment;

1695     filename="=?gb2312?B?tuC0rr/azajQxbXE1LTC6y56aXA=?="

1696

1697 UEsDBBQAAAAIAFKAoi7qOMOvLw0AAABWAAAUAAAAtuC0rr/azajQxbXE1LTC6y5kb2PtXHtwVNUZ

1698 /+4+kk3IQoAkBkRYQkSgbrKb7IYNEMwmm6ckG0jCI0boZneTbJJ9sNlAEsdOtFqd8Z846tQ6PhB1

1699 hrZTJoK0Vhgf1aGt4rMy6D8tdugfTjuOpcBIR9j+vvsIy4YkRNTRen87v/ud53cee+6557vn7L73

... ...  ... ...

3125 zajQxbXE1LTC6y5kb2NQSwUGAAAAAAEAAQBCAAAAYQ0AAA==

3126

3127 ------=_NextPart_000_007A_01C3115F.80DFC5E0--

3128

Q 在开始研�I�MIME邮�g的时候，如何得到�q�样的源码？

A 一些功能比较完善的邮�g客户端��Y�Ӟ��如微软的Outlook Express�Q�国产的Foxmail�{�，都提供了查看和保存邮件源�?原始信息)的功能。在Foxmail中，选择邮�g列表右键菜单�?#8220;原始信息”�q�行查看�Q�主菜单�?#8220;文�g-导出”�q�行保存。在Outlook Express中，对应的操作分别是“属�?#8221;�?#8220;另存�?#8221;。所保存�?eml文�g�Q�可以调用这些程序打开�?

Q 请介�l�一下MIME邮�g的组成？

A ��M��来说�Q�MIME消息由消息头和消息体两大部分�l�成。现在我们关注的是MIME邮�g�Q�因此在以下的讨��Z��姑且�U?#8220;消息”�?#8220;邮�g”。在上面的例子中�Q�例 1�?-6行，�?�?�?行，�?�?-18行，是邮件头�Q�例1�?�?行，�?�?0�?2行，�?�?0�?128行，是邮件体。邮件头与邮件体�? 间以�I��q�行分隔�Q�如�?的第7行，�?的第9行，�?的第19行。邮件头中不允许出现�I��。有一些邮件不能被邮�g客户端��Y件识别，昄��的是原始码，��是因�ؓ首行是空行�?

邮�g头包含了发�g人、收件�h、主题、时间、MIME版本、邮件内容的�c�d��{�重要信息。每条信息称��Z��个域�Q? 由域名后�?#8220;: ”和信息内�Ҏ��成，可以是一行，较长的也可以占用多行。域的首行必��?#8220;��头”写，卛_��边不能有�I�白字符�Q�空格和制表�W�）�Q�箋行则必须以空白字�W�打��_��且第一个空白字�W�不是信息本�w�固有的�Q�解码时要过滤掉。如�?�?-8行，�?�?-5行，13-14行，分别属于一个域�?

邮�g体包含邮件的内容�Q�它的类型由邮�g头的“Content-Type”域指出。常见的��单类型有text/plain(�U�文�?和text/html(��文�?�?

�?和例3中出现的multipart�c�d��Q�是MIME邮�g的精髓。邮件体被分为多个段�Q�每个段又包含段头和 �D�体两部分，�q�两部分之间也以�I��分隔。常见的multipart�c�d��有三�U�：multipart/mixed, multipart/related和multipart/alternative。从它们的名�U�ͼ�不难推知�q�些�c�d��各自的含义和用处。它们之间的层次�? �p�d��归纳��Z��图所�C�：

+------------------------- multipart/mixed ----------------------------+

|                                                                      |

|  +----------------- multipart/related ------------------+            |

|  |                                                      |            |

|  |  +----- multipart/alternative ------+  +----------+  |  +------+  |

|  |  |                                  |  | 内嵌资源 |  |  | 附�g |  |

|  |  |  +------------+  +------------+  |  +----------+  |  +------+  |

|  |  |  | �U�文本正�?|  | ���文本正�?|  |                |            |

|  |  |  +------------+  +------------+  |  +----------+  |  +------+  |

|  |  |                                  |  | 内嵌资源 |  |  | 附�g |  |

|  |  +----------------------------------+  +----------+  |  +------+  |

|  |                                                      |            |

|  +------------------------------------------------------+            |

|                                                                      |

+----------------------------------------------------------------------+

可以看出�Q�如果在邮�g中要��d��附�g�Q�必��d��义multipart/mixed�D�；如果存在内嵌资源�Q�至��要定义 multipart/related�D�；如果�U�文本与��文本共存，臛_��要定义multipart/alternative�D�c��什么是“臛_��”�Q��D个例�? ��_��如果只有�U�文本与��文本正文，那么在邮件头中将�c�d��扩大化，定义为multipart/related�Q�甚至multipart/mixed�Q�都是允许的�?

multipart诸类型的共同特征是，在段头指�?#8220;boundary”参数字符�Ԍ��D�体内的每个子段以此串定界。所有的子段都以“--”+boundary行开始，父段则以“--”+boundary+“--”行结束。段与段之间也以�I��分隔。在邮�g体是 multipart�c�d��的情况下�Q�邮件体的开始部�?�W�一�?#8220;--”+boundary行之�?可以有一些附加的文本行，相当于注释，解码时应忽略。段�? 也可以有一些附加的文本行，不会昄��出来�Q�如果有兴趣�Q�不妨验证一下�?

�l�合boundary定界和multipart层次关系图，我们分析一下例2和例3的邮件体层次与段嵌套关系�?

在例2中，10-12行是附加文本行，13-82行是multipart/alternative型的�D�，包含两个子段�Q?3-30行是�U�文本正文，32-79行是��文本正文�?

在例3中，20-21行是附加文本行，22-3127行是multipart/mixed型的�D�，包含3个子 �D�：22-171行是multipart/related�D�，173-1688行与1690-3125行是两个附�g。multipart/related �D�又包含两个子段�Q?7-61行是multipart/alternative�D�，63-169行是一个内嵌资�?囄��)�? multipart/alternative�D�又包含两个子段�Q?1-48行是�U�文本正文，40-59行是��文本正文�?

�?只有�U�文本正文，实际上属于multipart层次关系图中的一个特�D�情��c��如果非要避��q��Q�写成下面的形式�Q�也是完全符合MIME�_��的�?

Date: Thu, 18 Apr 2002 09:32:45 +0800

From: 

To: 

Subject: Test

Mime-Version: 1.0

Content-Type: multipart/alternative; boundary="{[(^_^)]}"



--{[(^_^)]}

Content-Type: text/plain; charset="iso-8859-1"

Content-Transfer-Encoding: 7bit



This is a simple mail.



--{[(^_^)]}--

Q 在邮件头和段头中�Q�有哪一些常见的域？

A 在邮件头中，有很多从RFC 822沿用的域名，MIME也增加了一些。常见的标准域名和含义如�?

域名	含义	��d��?
Received	传输路径	各��邮�g服务�?
Return-Path	回复地址	目标邮�g服务�?
Delivered-To	发送地址	目标邮�g服务�?
Reply-To	回复地址	邮�g的创��?
From	发�g人地址	邮�g的创��?
To	收�g人地址	邮�g的创��?
Cc	抄送地址	邮�g的创��?
Bcc	暗送地址	邮�g的创��?
Date	日期和时�?/td>	邮�g的创��?
Subject	主题	邮�g的创��?
Message-ID	消息ID	邮�g的创��?
MIME-Version	MIME版本	邮�g的创��?
Content-Type	内容的类�?/td>	邮�g的创��?
Content-Transfer-Encoding	内容的传输编码方�?/td>	邮�g的创��?

非标准的、自定义域名都以X-开��_��例如X-Mailer, X-MSMail-Priority�{�，通常在接收和发送邮件的是同一�E�序时才能理解它们的意义�?

在段头中�Q�大致有如下一些域

域名	含义
Content-Type	�D�体的类�?
Content-Transfer-Encoding	�D�体的传输编码方�?
Content-Disposition	�D�体的安排方�?
Content-ID	�D�体的ID
Content-Location	�D�体的位�\|?路径)
Content-Base	�D�体的基位置

有的域除了��g��外，�q�带有参数。��g��参数、参��C��参数之间�?#8220;;”分隔。参数名与参数��g��间以“=”分隔。如 �?�?8-29行，Content-Type域的��gؓ“multipart/alternative”�Q�此外有一个参数boundary�Q��gؓ"--- -=_NextPart_002_007C_01C3115F.80DFC5E0"。又如例3的第176行，Content-Disposition域的 ��gؓ“attachment”�Q�此外有一个参数filename�Q��gؓ“readme.doc”�?

Q Content-Type以及它们的参数有哪些形式�Q?

A Content-Type都是“�ȝ��?子类�?#8221;的�Ş式。主�c�d��有text, image, audio, video, application, multipart, message�{�，分别表示文本、图片、音频、视频、应用、分�D�c��消息等。每个主�c�d��都可能有多个子类型，如text�c�d��包含plain, html, xml, css�{�子�c�d��。以X-开头的�ȝ��型和子类型，同样表示自定义的�c�d��Q�未向IANA正式注册�Q�但大多已经�U�定成俗了。如application/x- zip-compressed是ZIP文�g�c�d��。在Windows中，注册表的“HKEY_CLASSES_ROOT\MIME\Database\ Content Type”内列举了除multipart之外大部分已知的Content-Type�?

关于参数的�Ş式，RFC里有很多补充规定�Q�有的允许带几个参数�Q�较为常见的�?

�ȝ��?/td>	参数�?/td>	含义
text	charset	字符�?
image	name	名称
application	name	名称
multipart	boundary	边界

其中字符集也能在Windows注册表的“HKEY_CLASSES_ROOT\MIME\Database\Charset”内见到�?

Q Content-Transfer-Encoding有哪些？有什么特点？

A Content-Transfer-Encoding共有Base64, Quoted-printable, 7bit, 8bit, Binary�{�几�U�。其�?bit是缺省的�~�码方式。电子邮件源码最初设计�ؓ全部是可打印的ASCII码的形式。非ASCII码的文本或数据要�~�码成要�? 的格式，如上面的三个例子。Base64, Quoted-Printable是在非英语国家��用最�q��的编码方式。Binary方式只具有象征意义，而没有�Q何实用�h倹{�?

Base64��输入的字符串或一�D�|��据编码成只含有{'A'-'Z', 'a'-'z', '0'-'9', '+', '/'}�q?4个字�W�的�Ԍ��'='用于填充。其�~�码的方法是�Q�将输入数据��每�ơ取6 bit�Q�用�? bit的�?0-63)作�ؓ索引��L��表，输出相应字符。这��P��?个字节将�~�码�?个字�W?3×8 → 4×6)�Q�不�?个字�W�的�?='填充。有的场合，�?#8220;=?charset?B?xxxxxxxx?=”表示xxxxxxxx是Base64�~�码�Q�且原文的字�W�集是charset。如�?�W?�?=?gb2312?B?wLbAtrXEzOwNCg==?="是由��体中�?#8220;蓝蓝的天”�~�码而成的。在�D�体�? 则直接编码，适当时机换行�Q�MIME��每行最�?6个字�W�。如�?�?697-3125行，是一个ZIP文�g的Base64�~�码�?

Quoted-printable�Ҏ��输入的字�W�串或字节范围进行编码，若是不需�~�码的字�W�，直接输出�Q�若需要编码，则先输出'='�Q�后面跟着�?个字�W�表�C�的十六�q�制字节倹{��有的场合，�?#8220;=?charset?Q?xxxxxxxx?=”表示 xxxxxxxx是Quoted-printable�~�码�Q�且原文的字�W�集是charset。在�D�体内则直接�~�码�Q�适当时机换行�Q�换行前额外输出一�?= '。如�?�?4-59行，是HTML文本的Quoted-printable�~�码。其中第45�?#8220;=C7=E7=C0=CA”原文�?#8220;晴朗”�Q�因�? “�?#8221;的GB2312码是C7E7�Q?#8220;�?#8221;的GB2312码是C0CA。第48�?3�?7行末��֏�有孤雉��?='�Q�表�C��是由�~�码造成的��Y回�R�Q�而非原文固有的�?

�q�年来，国内多数邮�g服务器已�l�支�?bit方式�Q�因此只在国内传输的邮�g�Q�特别是在邮件头中，可直接��?bit�~�码�Q�对汉字不做处理。如果邮件要出国�Q�还是老老实实地按Base64或Quoted-printable�~�码才行�?

Q 什么是内嵌资源�Q�它有哪些�Ş式？

A 内嵌资源也是MIME的一个发光点�Q�它能��邮�g内容变得生动�z�L��、丰富多彩。可在邮件的multipart/related框架内定义一些与正文兌��的图片、动甅R��声音甚至CSS样式和脚本的�D�c��通常在HTML正文内，使用��链接与内嵌资源相联系。如在例3中，HTML正文53-54行，解码后�ؓ

它指出用一个Content-ID�?07901c3111c$72b978a0$0100007f@bluesky的图片作��?cid:xxxxxxxx也是一�U�超�U�链�?。�?4-169行恰好就是这样一个内嵌资源�?

除了用Content-ID�q�行联系外，�q�有另外一�U�常用�Ş式：用普通超�U�连接和Content-Location。例如：

在HTML正文中，

... ...  ... ...



... ...  ... ...



... ...  ... ...

对应的内嵌资源�ؓ

Content-Type: image/gif; name="anti_joyo_dm_book.gif"

Content-Transfer-Encoding: base64

Content-Location: http://www.dangdang.com/images/all/anti_joyo_dm_book.gif

... ... ... ...

Content-Type: application/octet-stream; name="getimage_small.asp?id=486341"

Content-Transfer-Encoding: base64

Content-Location: http://www.dangdang.com/dd2001/getimage_small.asp?id=486341

... ... ... ...

另外�Q?

Content-Location: http://www.dangdang.com/images/all/anti_joyo_dm_book.gif

�?

Content-Location: anti_joyo_dm_book.gif

Content-Base: http://www.dangdang.com/images/all/

是等效的�?

Q 邮�g病毒如何利用附�g和内嵌资源传播？

A 有的邮�g附�g可能带有病毒�Q�容易理解。附件毕竟是文�g�Q�也好预�Ԍ��不轻易打开��是了。但内嵌资源是在��览邮�g内容时就要访问的�Q�若其中藏有病毒或恶意代码，你在不知不觉中就中招了。如前两�q�曾�l�在全球范围内流行的Nimda病毒�Q�功能性源码如下：

MIME-Version: 1.0

Content-Type: multipart/related;

type="multipart/alternative";

boundary="====_ABC1234567890DEF_===="



--====_ABC1234567890DEF_====

Content-Type: multipart/alternative;

boundary="====_ABC0987654321DEF_===="



--====_ABC0987654321DEF_====

Content-Type: text/html;

charset="iso-8859-1"

Content-Transfer-Encoding: 7bit









--====_ABC0987654321DEF_====--



--====_ABC1234567890DEF_====

Content-Type: audio/x-wav; name="readme.exe"

Content-Transfer-Encoding: base64

Content-ID: 



TVqQAAMAAAAEAAAA//8AALgAAAAAAAAAQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA

AAAA2AAAAA4fug4AtAnNIbgBTM0hVGhpcyBwcm9ncmFtIGNhbm5vdCBiZSBydW4gaW4gRE9TIG1v

ZGUuDQ0KJAAAAAAAAAA11CFvcbVPPHG1TzxxtU88E6pcPHW1TzyZqkU8dbVPPJmqSzxytU88cbVO

... ...  ... ...  ... ...  ... ...

AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA=



--====_ABC1234567890DEF_====

它将一个可执行文�g作�ؓ资源嵌入了框架型��面�Q�却声明�q�段可执行代码是波�Ş声音�c�d��。由于当时微软的IE(版本5.0 及以�?存在重大安全漏洞�Q�没有检查Content-Type与name的扩展名是否匚w��Q�于是就被轻易骗�q�了�Q�致使点选或打开邮�g时自动运行了�q�个 “readme.exe”�Q�机器就感染上病毒。带毒的机器利用地址��向别�h发送带毒的邮�g�Q�一传十�Q�十传百�Q�Nimda蠕虫大行光��?

�U�观历史�Q�病毒刚出来时是厉害�Q�但没有��M��一�U�能够持�l�肆虐下厅R��Nimda如此�Q�SARS亦当如此。曰�Q?#8220;多难兴邦�Q�众志成�?#8221;�Q�又曎ͼ�“非典�l�将倒下�Q�城市精��永�?#8221;�Q�相信我们定能很快战�?#8220;非典”!

病毒库升�U�是跟在新病毒屁股后�q�行的，不要�q�分依赖杀毒��Y件。一个良好的习惯是关闭邮仉��览功能，或者设定预览纯文本部分�Q�先查看邮�g源码�Q�确信排除病毒嫌疑后再打开。对陌生人发来的带超文本正文的邮�Ӟ��其要当心。永�q�不要在邮�g客户端��Y件内直接打开附�g�?

Q 一些垃��N��仉��取隐藏发件�h的方式，如何�q�查它们来自哪里�Q?

A 从上面的邮�g头域名表中可以看出，邮�g的创��可以掌握大部分的域的内容，但Received�{�域由各�U�服务器自动��d��Q�发件�h是鞭长莫及。垃��N��件一�? 采用了群发��Y件发送，邮�g头的From�?发�g人地址)可以��L��伪造，甚至写成收�g人地址(收到了自己�ƈ没有发过的垃��N��Ӟ��气愤吧？)。查�? Received�?传输路径)铑֏�以找到真正的出处。每个服务器��d��的Received语句都在邮�g首，故最下面一个Received��包含了发�g人所用的SMTP或HTTP服务器，及最初的�|�关外部IP地址�?

Receive语句的基本格式是�Q�from A by B。A为发送方�Q�B为接收方。例如：

Received: (qmail 45304 invoked from network); 4 May 2003 17:05:47 -0000

Received: from unknown (HELO bjapp9.163.net) (202.108.255.197)

by 202.106.182.244 with SMTP; 4 May 2003 17:05:47 -0000

Received: from localhost (localhost [127.0.0.1])

by bjapp9.163.net (Postfix) with SMTP id E1C761D84C631

for ; Mon,  5 May 2003 01:07:26 +0800 (CST)

Received: from fanyingxxxx@tom.com (unknown [211.99.162.194])

by bjapp9.163.net (Coremail) with SMTP id OgEAAM1ItT7MNaLC.1

for ; Mon, 05 May 2003 01:07:26 +0800 (CST)

从上面的例子中不隄��出，该邮件的传输路径是：211.99.162.194 → bjapp9.163.net (Coremail 202.108.255.197?) → bjapp9.163.net (Postfix, 202.108.255.197?) → 202.106.182.244。恰好出��C��发�g人邮��fanyingxxxx@tom.com�Q�但多数情况不一定能列出来�?

此例的localhost [127.0.0.1]�Q�意味着bjapp9.163.net上安装了邮�g服务代理性质的��Y件�?

java执著�?/a> 2007-12-01 16:36 发表评论

[转]Java/J2EE中文问题�l�极解决之道

Thu, 20 Sep 2007 03:07:00 GMT

Java中文问题一直困扰着很多初学者，如果了解了Java�pȝ��的中文问题原理，我们��可以对中文问题能够采取�Ҏ��的解决之道�?

　　最古老的解决�Ҏ��是��用String的字节码转换�Q�这�U�方案问题是不方便，我们需要破坏对象封装性，�q�行字节码�{换�?/p>

　　�q�有一�U�方式是对J2EE容器�q�行�~�码讄��Q�如果J2EE应用�pȝ��q��该容器，则会发生��q��Q�而且指定容器配置不符合J2EE应用和容器分��ȝ��原则�?/p>

在Java内部�q�算中，涉及到的所有字�W�串都会被�{化�ؓUTF-8�~�码来进行运��。那么，在被Java转化之前�Q�字�W�串是什么样的字�W�集�Q? Java��L��Ҏ��操作�pȝ��的默认编码字�W�集来决定字�W�串的初始编码，而且Java�pȝ��的输入和输出的都是采取操作系�l�的默认�~�码�?/p>

　　�? 此，如果能统一Java�pȝ��的输入、输出和操作�pȝ��3者的�~�码字符集合�Q�将能够使Java�pȝ��正确处理和显�C�汉字。这是处理Java�pȝ��汉字的一个原则，但是在实际项目中�Q�能够正��抓住和控制住Java�pȝ��的输入和输出部分是比较难的。J2EE中，�׃��涉及到外部浏览器和数据库�{�，所以中文问题�ؕ码显得非常突出�?/p>

　　J2EE应用�E�序是运行在J2EE容器中。在�q�个�pȝ��中，输入途径有很多种�Q�一�U�是通过��面表单打包成请求（request�Q? 发往服务器的�Q�第二种是通过数据库读入；�q�有�W?�U�输入比较复杂，JSP在第一�ơ运行时��L��被编译成Servlet�Q�JSP中常常包含中文字�W�，那么�~�译使用javac�Ӟ��Java��根据默认的操作�pȝ��~�码作�ؓ初始�~�码。除非特别指定，如在Jbuilder/eclipse中可以指定默认的字符集�?/p>

　　输出途径也有几种�Q�第一�U�是JSP��面的输出。由于JSP��面已经被编译成Servlet�Q�那么在输出�Ӟ��也将�Ҏ��操作�pȝ��的默认编码来选择输出�~�码�Q�除非指定输出编码方式；�q�有输出途径是数据库�Q�将字符串输出到数据库�?/p>

　　由此看来�Q�一个J2EE�pȝ��的输入输出是非常复杂�Q�而且是动态变化的�Q�而Java是跨�q�_��q�行的，在实际编译和�q�行中，都可能涉及到不同的操作系�l�，如果�ȝ��Java自由�Ҏ��操作�pȝ��来决定输入输出的�~�码字符集，�q�将不可控制地出��Cؕ码�?/p>

　　正是�׃��Java的跨�q�_��Ҏ��，使得字符集问题必��ȝ��具体�pȝ��来统一解决�Q�所以在一个Java应用�pȝ��中，解决中文��q��的根本办法是明确指定整个应用�pȝ��l�一字符集�?/strong>

　　指定�l�一字符集时�Q�到底是指定ISO8859_1 、GBK�q�是UTF-8呢？

　　�Q?�Q�如�l�一指定为ISO8859_1�Q�因为目前大多数软�g都是西方人编制的�Q�他们默认的字符集就是ISO8859_1�Q�包括操作系�l�Linux和数据库MySQL�{�。这��P��如果指定Jive�l�一�~�码为ISO8859_1�Q�那么就有下�?个环节必��L��握：

　　开发和�~�译代码时指定字�W�集为ISO8859_1�?/p>
　　�q�行操作�pȝ��的默认编码必��L��ISO8859_1�Q�如Linux�?/p>
　　在JSP头部声明�Q?lt;%@ page contentType="text/html;charset=ISO8859_1" %>�?/p>
　　�Q?�Q�如果统一指定为GBK中文字符集，上述3个环节同样需要做刎ͼ�不同的是只能�q�行在默认编码�ؓGBK的操作系�l�，如中文Windows�?/p>
　　�l�一�~�码为ISO8859_1和GBK虽然带来�~�制代码的方便，但是各自只能在相应的操作�pȝ��上运行。但是也破坏了Java跨��^台运行的优越性，只在一定范围内行得通。例如，��Z��使得GBK�~�码在linux上运行，讄��Linux�~�码为GBK�?/p>
　　那么有没有一�U�除了应用系�l�以外不需要进行�Q何附加设�|�的中文�~�码�Ҏ��解决�Ҏ��呢？

　　��Java/J2EE�pȝ��的统一�~�码定义为UTF-8。UTF-8�~�码是一�U�兼�Ҏ��有语�a�的编码方式，惟一比较�ȝ��的就是要扑ֈ�应用�pȝ��的所有出入口�Q�然后��用UTF-8�?#8220;�l�扎”它�?/p>
　　一个J2EE应用�pȝ��需要做下列几步工作�Q?/p>

开发和�~�译代码时指定字�W�集为UTF-8。JBuilder和Eclipse都可以在��目属性中讄��?

使用�q��o器，如果所有请求都�l�过一个Servlet控制分配器，那么使用Servlet的filter执行语句�Q�将所有来自浏览器的请求（request�Q��{换�ؓUTF-8�Q�因为浏览器发过来的��h��包根据浏览器所在的操作�pȝ��~�码�Q�可能是各种形式�~�码。关键一句：
request.setCharacterEncoding("UTF-8")�?br /> �|�上有此filter的源码，Jdon框架源码中com.jdon.util.SetCharacterEncodingFilter
需要配�|�web.xml �Ȁ�z�该Filter�?

在JSP头部声明�Q?lt;%@ page contentType="text/html;charset= UTF-8" %>�?

在Jsp的html代码中，声明UTF-8:

讑֮�数据库连接方式是UTF-8。例如连接MYSQL旉��|�URL如下�Q?br /> jdbc:mysql://localhost:3306/test?useUnicode=true&characterEncoding=UTF-8
注意�Q�上�q�写法是JBoss的mysql-ds.xml写法�Q�多亏网友提�C�，在tomcat�?amp;amp;要写�?amp;卛_��。一般其他数据库都可以通过��理讄��讑֮�UTF-8

其他和外界交互时能够讑֮��~�码时就讑֮�UTF-8�Q�例如读取文�Ӟ��操作XML�{��?

�W�者以前在Jsp/Servlet时就采取�q�个原则�Q�后来��用Struts、Tapestry、EJB、Hibernate、Jdon�{�框架时�Q�从未被�? 码困扰过�Q�可以说适合各种架构。希望本�Ҏ��供更多初学者分享，减少Java/J2EE的第一个拦路虎�Q�也避免因�ؓ采取一些��时解��x��案，��D��中文问题一�? 出现在新的技术架构中

java执著�?/a> 2007-09-20 11:07 发表评论

[转蝲]Session详解

Tue, 19 Sep 2006 06:35:00 GMT
标题�Q�Session详解
[评论]

作者：郎云鹏（dev2dev ID: hippiewolf�Q?/p>
摘要�Q�虽然session机制在web应用�E�序中被采用已经很长旉��了，但是仍然有很多�h不清楚session机制的本质，以至不能正确的应用这一技术。本文将详细讨论session的工作机制�ƈ且对在Java web application中应用session机制时常见的问题作出解答�?/p>
目录�Q?br />一、术语session
二、HTTP协议与状态保�?/a>
三、理解cookie机制
 四、理解session机制
 五、理解javax.servlet.http.HttpSession
六、HttpSession常见问题
 七、跨应用�E�序的session�׃�n
八、�ȝ��
参考文�?/a>

一、术语session
在我的经验里�Q�session�q�个词被滥用的程度大概仅�ơ于transaction�Q�更加有��的是transaction与session在某些语境下的含义是相同的�?/p>
session�Q�中文经常翻译�ؓ会话�Q�其本来的含义是指有始有�l�的一�p�d��动作/消息�Q�比如打电话时从拿�v电话拨号到挂断电话这中间的一�p�d��q�程可以�U�C��Z��个session。有时候我们可以看到这��L��话“在一个浏览器会话期间�Q?..”，�q�里的会话一词用的就是其本义�Q�是指从一个浏览器�H�口打开到关闭这个期间①。最混�ؕ的是“用��P��客户端）在一�ơ会话期间”这样一句话�Q�它可能指用��L��一�p�d��动作�Q�一般情况下是同某个具体目的相关的一�p�d��动作�Q�比如从��d��到选购商品到结账登��样一个网上购物的�q�程�Q�有时候也被称��Z��个transaction�Q�，然而有时候也可能仅仅是指一�ơ连接，也有可能是指含义①，其中的差别只能靠上下文来推断②�?/p>
然而当session一词与�|�络协议相关联时�Q�它又往往隐含了“面向连接”和/或“保持状态”这样两个含义，“面向连接”指的是在通信双方在通信之前要先建立一个通信的渠道，比如打电话，直到�Ҏ��接了电话通信才能开始，与此相对的是写信�Q�在你把信发出去的时候你�q�不能确认对方的地址是否正确�Q�通信渠道不一定能建立�Q�但对发信�h来说�Q�通信已经开始了。“保持状态”则是指通信的一方能够把一�p�d��的消息关联�v来，使得消息之间可以互相依赖�Q�比如一个服务员能够认出再次光��的老顾客�ƈ且记得上�ơ这个顾客还�Ơ店里一块钱。这一�cȝ��例子有“一个TCP session”或者“一个POP3 session”③�?/p>
而到了web服务器蓬勃发展的时代�Q�session在web开发语境下的语义又有了新的扩展�Q�它的含义是指一�cȝ��来在客户端与服务器之间保持状态的解决�Ҏ��④。有时候session也用来指�q�种解决�Ҏ��的存储结构，如“把xxx保存在session里”⑤。由于各�U�用于web开发的语言在一定程度上都提供了对这�U�解��x��案的支持�Q�所以在某种特定语言的语境下�Q�session也被用来指代该语�a�的解��x��案，比如�l�常把Java里提供的javax.servlet.http.HttpSession��U�Cؓsession⑥�?/p>
鉴于�q�种混�ؕ已不可改变，本文中session一词的�q�用也会�Ҏ��上下文有不同的含义，请大家注意分辨�?br />在本文中�Q��用中文“浏览器会话期间”来表达含义①，使用“session机制”来表达含义④，使用“session”表辑֐�义⑤�Q��用具体的“HttpSession”来表达含义�?/p>
二、HTTP协议与状态保�?/strong>
HTTP协议本��n是无状态的�Q�这与HTTP协议本来的目的是相符的，客户端只需要简单的向服务器��h��下蝲某些文�g�Q�无论是客户端还是服务器都没有必要纪录彼此过�ȝ��行�ؓ�Q�每一�ơ请求之间都是独立的�Q�好比一个顾客和一个自动售货机或者一个普通的�Q�非会员�Ӟ��大卖��Z��间的关系一栗��?/p>
然而聪明（或者贪心？�Q�的��Z��很快发现如果能够提供一些按需生成的动态信息会使web变得更加有用�Q�就像给有线电视加上�Ҏ��功能一栗��这�U�需求一斚w��q��HTML逐步��d��了表单、脚本、DOM�{�客��L��行�ؓ�Q�另一斚w��在服务器端则出现了CGI规范以响应客��L��的动态请求，作�ؓ传输载体的HTTP协议也添加了文�g上蝲、cookie�q�些�Ҏ��。其中cookie的作用就是�ؓ了解决HTTP协议无状态的�~�陷所作出的努力。至于后来出现的session机制则是又一�U�在客户端与服务器之间保持状态的解决�Ҏ��?/p>
让我们用几个例子来描�q�C��下cookie和session机制之间的区别与联系。笔者曾�l�常�ȝ��一家咖啡店有喝5杯咖啡免费赠一杯咖啡的优惠�Q�然而一�ơ性消�?杯咖啡的��Z��微乎其微�Q�这时就需要某�U�方式来�U�录某位��֮�的消�Ҏ��量。想象一下其实也无外乎下面的几种�Ҏ��Q?br />1、该店的店员很厉宻I��能记住每位顾客的消费数量�Q�只要顾客一走进咖啡店，店员��q��道该怎么对待了。这�U�做法就是协议本�w�支持状态�?br />2、发�l�顾客一张卡片，上面记录着消费的数量，一般还有个有效期限。每�ơ消�Ҏ��Q�如果顾客出�C��张卡片，则此�ơ消费就会与以前或以后的消费相联�p��v来。这�U�做法就是在客户端保持状态�?br />3、发�l�顾客一张会员卡�Q�除了卡号之外什么信息也不纪录，每次消费�Ӟ��如果��֮�出示该卡片，则店员在店里的纪录本上找到这个卡号对应的�U�录��d��一些消费信息。这�U�做法就是在服务器端保持状态�?/p>
�׃��HTTP协议是无状态的�Q�而出于种�U�考虑也不希望使之成�ؓ有状态的�Q�因此，后面两种�Ҏ��成为现实的选择。具体来说cookie机制采用的是在客��L��保持状态的�Ҏ��Q�而session机制采用的是在服务器端保持状态的�Ҏ��。同时我们也看到�Q�由于采用服务器端保持状态的�Ҏ��在客��L��也需要保存一个标识，所以session机制可能需要借助于cookie机制来达��C��存标识的目的�Q�但实际上它�q�有其他选择�?/p>
三、理解cookie机制
cookie机制的基本原理就如上面的例子一��L��单，但是�q�有几个问题需要解冻I��“会员卡”如何分发；“会员卡”的内容�Q�以及客户如何��用“会员卡”�?/p>
正统的cookie分发是通过扩展HTTP协议来实现的�Q�服务器通过在HTTP的响应头中加上一行特�D�的指示以提�C�浏览器按照指示生成相应的cookie。然而纯�_�的客户端脚本如JavaScript或者VBScript也可以生成cookie�?/p>
而cookie的��用是由浏览器按照一定的原则在后台自动发送给服务器的。浏览器��查所有存储的cookie�Q�如果某个cookie所声明的作用范围大于等于将要请求的资源所在的位置�Q�则把该cookie附在��h��资源的HTTP��h��头上发送给服务器。意思是麦当劳的会员卡只能在麦当劳的店里出示�Q�如果某家分店还发行了自��q��会员卡，那么�q�这家店的时候除了要出示麦当劳的会员卡，�q�要出示�q�家店的会员卡�?/p>
cookie的内容主要包括：名字�Q��|��q�期旉��Q��\径和域�?br />其中域可以指定某一个域比如.google.com�Q�相当于��d��招牌�Q�比如宝�z�公司，也可以指定一个域下的具体某台机器比如www.google.com或者froogle.google.com�Q�可以用飘柔来做比�?br />路径��是跟在域名后面的URL路径�Q�比�?或�?foo�{�等�Q�可以用某飘柔专柜做比�?br />路径与域合在一起就构成了cookie的作用范围�?br />如果不设�|�过期时��_��则表�C��个cookie的生命期为浏览器会话期间�Q�只要关闭浏览器�H�口�Q�cookie��消�׃��。这�U�生命期为浏览器会话期的cookie被称��Z��话cookie。会话cookie一般不存储在硬盘上而是保存在内存里�Q�当然这�U�行为�ƈ不是规范规定的。如果设�|�了�q�期旉��Q�浏览器��׃��把cookie保存到硬盘上�Q�关闭后再次打开��览器，�q�些cookie仍然有效直到��过讑֮�的过期时间�?/p>
存储在硬盘上的cookie可以在不同的��览器进�E�间�׃�n�Q�比如两个IE�H�口。而对于保存在内存里的cookie�Q�不同的��览器有不同的处理方式。对于IE�Q�在一个打开的窗口上按Ctrl-N�Q�或者从文�g菜单�Q�打开的窗口可以与原窗口共享，而��用其他方式新开的IE�q�程则不能共享已�l�打开的窗口的内存cookie�Q�对于Mozilla Firefox0.8�Q�所有的�q�程和标�{�N��都可以共享同��L��cookie。一般来说是用javascript的window.open打开的窗口会与原�H�口�׃�n内存cookie。浏览器对于会话cookie的这�U�只认cookie不认人的处理方式�l�常�l�采用session机制的web应用�E�序开发者造成很大的困扰�?/p>
下面��是一个goolge讄��cookie的响应头的例�?br />HTTP/1.1 302 Found
Location: http://www.google.com/intl/zh-CN/
Set-Cookie: PREF=ID=0565f77e132de138:NW=1:TM=1098082649:LM=1098082649:S=KaeaCFPo49RiA_d8; expires=Sun, 17-Jan-2038 19:14:07 GMT; path=/; domain=.google.com
Content-Type: text/html

�q�是使用HTTPLook�q�个HTTP Sniffer软�g来俘��L��HTTP通讯�U�录的一部分

��览器在再次讉K��goolge的资源时自动向外发送cookie

使用Firefox可以很容易的观察现有的cookie的�?br />使用HTTPLook配合Firefox可以很容易的理解cookie的工作原理�?/p>

IE也可以设�|�在接受cookie前询�?/p>

�q�是一个询问接受cookie的对话框�?/p>
四、理解session机制
session机制是一�U�服务器端的机制�Q�服务器使用一�U�类��g��散列表的�l�构�Q�也可能��是使用散列表）来保存信息�?/p>
当程序需要�ؓ某个客户端的��h��创徏一个session的时候，服务器首先检查这个客��L��的请求里是否已包含了一个session标识 - �U�Cؓsession id�Q�如果已包含一个session id则说明以前已�l��ؓ此客��L��创徏�q�session�Q�服务器��按照session id把这个session��索出来��用（如果��索不刎ͼ�可能会新��Z��个）�Q�如果客��L��h��不包含session id�Q�则为此客户端创��Z��个session�q�且生成一个与此session相关联的session id�Q�session id的值应该是一个既不会重复�Q�又不容易被扑ֈ�规律以仿造的字符�Ԍ��q�个session id��被在本�ơ响应中�q�回�l�客��L��保存�?/p>
保存�q�个session id的方式可以采用cookie�Q�这样在交互�q�程中浏览器可以自动的按照规则把�q�个标识发挥�l�服务器。一般这个cookie的名字都是类��g��SEEESIONID�Q�而。比如weblogic对于web应用�E�序生成的cookie�Q�JSESSIONID=ByOK3vjFD75aPnrF7C2HmdnV6QZcEbzWoWiBYEnLerjQ99zWpBng!-145788764�Q�它的名字就是JSESSIONID�?/p>
�׃��cookie可以被�h为的��止�Q�必��L��其他机制以便在cookie被禁止时仍然能够把session id传递回服务器。经常被使用的一�U�技术叫做URL重写�Q�就是把session id直接附加在URL路径的后面，附加方式也有两种�Q�一�U�是作�ؓURL路径的附加信息，表现形式为http://...../xxx;jsessionid=ByOK3vjFD75aPnrF7C2HmdnV6QZcEbzWoWiBYEnLerjQ99zWpBng!-145788764
另一�U�是作�ؓ查询字符串附加在URL后面�Q�表现�Ş式�ؓhttp://...../xxx?jsessionid=ByOK3vjFD75aPnrF7C2HmdnV6QZcEbzWoWiBYEnLerjQ99zWpBng!-145788764
�q�两�U�方式对于用��h��说是没有区别的，只是服务器在解析的时候处理的方式不同�Q�采用第一�U�方式也有利于把session id的信息和正常�E�序参数区分开来�?br />��Z��在整个交互过�E�中始终保持状态，��必��d��每个客户端可能请求的路径后面都包含这个session id�?/p>
另一�U�技术叫做表单隐藏字�D�c��就是服务器会自动修改表单，��d��一个隐藏字�D�，以便在表单提交时能够把session id传递回服务器。比如下面的表单

在被传递给客户端之前将被改写成

�q�种技术现在已较少应用�Q�笔者接触过的很古老的iPlanet6(SunONE应用服务器的前��n)��׃��用了�q�种技术�?br />实际上这�U�技术可以简单的用对action应用URL重写来代�ѝ�?/p>
在谈论session机制的时候，常常听到�q�样一�U�误解“只要关闭浏览器�Q�session��消�׃��”。其实可以想象一下会员卡的例子，除非��֮��d��对店家提出销卡，否则店家�l�对不会��L��删除��֮�的资料。对session来说也是一��L��Q�除非程序通知服务器删除一个session�Q�否则服务器会一直保留，�E�序一般都是在用户做log off的时候发个指令去删除session。然而浏览器从来不会��d��在关闭之前通知服务器它��要关闭�Q�因此服务器�Ҏ��不会有机会知道浏览器已经关闭�Q�之所以会有这�U�错觉，是大部分session机制都��用会话cookie来保存session id�Q�而关闭浏览器后这个session id��消�׃��Q�再�ơ连接服务器时也��无法找到原来的session。如果服务器讄��的cookie被保存到��盘上，或者��用某�U�手�D�|��写浏览器发出的HTTP��h��_��把原来的session id发送给服务器，则再�ơ打开��览器仍然能够找到原来的session�?/p>
恰恰是由于关闭浏览器不会��D��session被删除，�q��服务器�ؓseesion讄��了一个失效时��_��当距��d��L��上一�ơ��用session的时间超�q�这个失效时间时�Q�服务器��可以认为客��L��已经停止了活动，才会把session删除以节省存储空间�?/p>
五、理解javax.servlet.http.HttpSession
HttpSession是Java�q�_��对session机制的实现规范，因�ؓ它仅仅是个接口，具体到每个web应用服务器的提供商，除了对规范支持之外，仍然会有一些规范里没有规定的细微差异。这里我们以BEA的Weblogic Server8.1作�ؓ例子来演�C��?/p>
首先�Q�Weblogic Server提供了一�p�d��的参数来控制它的HttpSession的实玎ͼ�包括使用cookie的开关选项�Q��用URL重写的开关选项�Q�session持久化的讄��Q�session失效旉��的设�|�，以及针对cookie的各�U�设�|�，比如讄��cookie的名字、�\径、域�Q�cookie的生存时间等�?/p>
一般情况下�Q�session都是存储在内存里�Q�当服务器进�E�被停止或者重启的时候，内存里的session也会被清�I�，如果讄��了session的持久化�Ҏ��，服务器就会把session保存到硬盘上�Q�当服务器进�E�重新启动或�q�些信息��能够被再次使用�Q�Weblogic Server支持的持久性方式包括文件、数据库、客��L��cookie保存和复制�?/p>
复制严格说来不算持久化保存，因�ؓsession实际上还是保存在内存里，不过同样的信息被复制到各个cluster内的服务器进�E�中�Q�这样即使某个服务器�q�程停止工作也仍然可以从其他�q�程中取得session�?/p>
cookie生存旉��的设�|�则会媄响浏览器生成的cookie是否是一个会话cookie。默认是使用会话cookie。有兴趣的可以用它来试验我们在第四节里提到的那个误解�?/p>
cookie的�\径对于web应用�E�序来说是一个非帔R��要的选项�Q�Weblogic Server对这个选项的默认处理方式��得它与其他服务器有明昄��区别。后面我们会专题讨论�?/p>
关于session的设�|�参考[5] http://e-docs.bea.com/wls/docs70/webapp/weblogic_xml.html#1036869

六、HttpSession常见问题
�Q�在本小节中session的含义�ؓ⑤和⑥的混合�Q?/p>

1、session在何时被创徏
一个常见的误解是以为session在有客户端访问时��p��创徏�Q�然而事实是直到某server端程序调用HttpServletRequest.getSession(true)�q�样的语句时才被创徏�Q�注意如果JSP没有昄��的��?<%@page session="false"%> 关闭session�Q�则JSP文�g在编译成Servlet时将会自动加上这样一条语句HttpSession session = HttpServletRequest.getSession(true);�q�也是JSP中隐含的session对象的来历�?/p>
�׃��session会消耗内存资源，因此�Q�如果不打算使用session�Q�应该在所有的JSP中关闭它�?/p>
2、session何时被删�?br />�l�合前面的讨论，session在下列情况下被删除a.�E�序调用HttpSession.invalidate();或b.距离上一�ơ收到客��L��发送的session id旉��间隔��过了session的超时设�|?或c.服务器进�E�被停止�Q�非持久session�Q?/p>
3、如何做到在��览器关闭时删除session
严格的讲�Q�做不到�q�一炏V��可以做一点努力的办法是在所有的客户端页面里使用javascript代码window.oncolose来监视浏览器的关闭动作，然后向服务器发送一个请求来删除session。但是对于浏览器崩溃或者强行杀死进�E�这些非常规手段仍然无能为力�?/p>
4、有个HttpSessionListener是怎么回事
你可以创��L��listener�ȝ��控session的创建和销毁事�Ӟ��使得在发生这��L��事�g时你可以做一些相应的工作。注意是session的创建和销毁动作触发listener�Q�而不是相反。类似的与HttpSession有关的listener�q�有HttpSessionBindingListener�Q�HttpSessionActivationListener和HttpSessionAttributeListener�?/p>
5、存攑֜�session中的对象必须是可序列化的�?br />不是必需的。要求对象可序列化只是�ؓ了session能够在集��中被复制或者能够持久保存或者在必要时server能够暂时把session交换出内存。在Weblogic Server的session中放�|�一个不可序列化的对象在控制��C��会收��C��个警告。我所用过的某个iPlanet版本如果session中有不可序列化的对象�Q�在session销毁时会有一个Exception�Q�很奇怪�?/p>
6、如何才能正��的应付客户端禁止cookie的可能�?br />�Ҏ��有的URL使用URL重写�Q�包括超链接�Q�form的action�Q�和重定向的URL�Q�具体做法参见[6]
http://e-docs.bea.com/wls/docs70/webapp/sessions.html#100770

7、开两个��览器窗口访问应用程序会使用同一个session�q�是不同的session
参见�W�三��节对cookie的讨论，对session来说是只认id不认人，因此不同的浏览器�Q�不同的�H�口打开方式以及不同的cookie存储方式都会对这个问题的�{�案有媄响�?/p>
8、如何防止用��h��开两个��览器窗口操作导致的session混�ؕ
�q�个问题与防止表单多�ơ提交是�c�M��的，可以通过讄��客户端的令牌来解冟뀂就是在服务器每�ơ生成一个不同的id�q�回�l�客��L��Q�同时保存在session里，客户端提交表单时必须把这个id也返回服务器�Q�程序首先比较返回的id与保存在session里的值是否一��_��如果不一致则说明本次操作已经被提交过了。可以参看《J2EE核心模式》关于表�C�层模式的部分。需要注意的是对于��用javascript window.open打开的窗口，一般不讄��q�个id�Q�或者��用单独的id�Q�以防主�H�口无法操作�Q�徏议不要再window.open打开的窗口里做修�Ҏ��作，�q�样��可以不用设�|��?/p>
9、�ؓ什么在Weblogic Server中改变session的值后要重新调用一�ơsession.setValue
做这个动作主要是��Z��在集��环境中提示Weblogic Server session中的值发生了改变�Q�需要向其他服务器进�E�复制新的session倹{�?/p>
10、�ؓ什么session不见�?br />排除session正常失效的因素之外，服务器本�w�的可能性应该是微乎其微的，虽然�W�者在iPlanet6SP1加若�q�补丁的Solaris版本上倒也遇到�q�；��览器插件的可能性次之，�W�者也遇到�q?721插�g造成的问题；理论上防火墙或者代理服务器在cookie处理上也有可能会出现问题�?br />出现�q�一问题的大部分原因都是�E�序的错误，最常见的就是在一个应用程序中去访问另外一个应用程序。我们在下一节讨��个问题�?/p>
七、跨应用�E�序的session�׃�n

常常有这��L��情况�Q�一个大��目被分割成若干��项目开发，��Z��能够互不�q�扰�Q�要求每个小��目作�ؓ一个单独的web应用�E�序开发，可是��C��最后突然发现某几个��项目之间需要共享一些信息，或者想使用session来实现SSO(single sign on)�Q�在session中保存login的用户信息，最自然的要求是应用�E�序间能够访问彼此的session�?/p>
然而按照Servlet规范�Q�session的作用范围应该仅仅限于当前应用程序下�Q�不同的应用�E�序之间是不能够互相讉K��Ҏ��的session的。各个应用服务器从实际效果上都遵守了�q�一规范�Q�但是实现的�l�节却可能各有不同，因此解决跨应用程序session�׃�n的方法也各不相同�?/p>
首先来看一下Tomcat是如何实现web应用�E�序之间session的隔��ȝ��Q�从Tomcat讄��的cookie路径来看�Q�它对不同的应用�E�序讄��的cookie路径是不同的�Q�这样不同的应用�E�序所用的session id是不同的�Q�因此即使在同一个浏览器�H�口里访问不同的应用�E�序�Q�发送给服务器的session id也可以是不同的�?br />

�Ҏ��q�个�Ҏ��，我们可以推测Tomcat中session的内存结构大致如下�?br />

�W�者以前用�q�的iPlanet也采用的是同��L��方式�Q�估计SunONE与iPlanet之间不会有太大的差别。对于这�U�方式的服务器，解决的思�\很简单，实际实行��h��也不难。要么让所有的应用�E�序�׃�n一个session id�Q�要么让应用�E�序能够获得其他应用�E�序的session id�?/p>
iPlanet中有一�U�很��单的�Ҏ��来实现共享一个session id�Q�那��是把各个应用程序的cookie路径都设�?�Q�实际上应该�?NASApp�Q�对于应用程序来讲它的作用相当于根）�?br />
/NASApp

需要注意的是，操作�׃�n的session应该遵��@一些编�E�约定，比如在session attribute名字的前面加上应用程序的前缀�Q��得setAttribute("name", "neo")变成setAttribute("app1.name", "neo")�Q�以防止命名�I�间冲突�Q�导致互相覆盖�?/p>

在Tomcat中则没有�q�么方便的选择。在Tomcat版本3上，我们�q�可以有一些手�D�|��׃�nsession。对于版�?以上的Tomcat�Q�目前笔者尚未发现简单的办法。只能借助于第三方的力量，比如使用文�g、数据库、JMS或者客��L��cookie�Q�URL参数或者隐藏字�D늭�手段�?/p>
我们再看一下Weblogic Server是如何处理session的�?br />

从截屏画面上可以看到Weblogic Server�Ҏ��有的应用�E�序讄��的cookie的�\径都�?�Q�这是不是意味着在Weblogic Server中默认的��可以共享session了呢�Q�然而一个小实验卛_��证明即��不同的应用程序��用的是同一个session�Q�各个应用程序仍然只能访问自己所讄��的那些属性。这说明Weblogic Server中的session的内存结构可能如�?br />

对于�q�样一�U�结构，在session机制本��n上来解决session�׃�n的问题应该是不可能的了。除了借助于第三方的力量，比如使用文�g、数据库、JMS或者客��L��cookie�Q�URL参数或者隐藏字�D늭�手段�Q�还有一�U�较为方便的做法�Q�就是把一个应用程序的session攑ֈ�ServletContext中，�q�样另外一个应用程序就可以从ServletContext中取得前一个应用程序的引用。示例代码如下，

应用�E�序A
context.setAttribute("appA", session);

应用�E�序B
contextA = context.getContext("/appA");
HttpSession sessionA = (HttpSession)contextA.getAttribute("appA");

值得注意的是�q�种用法不可�U�L��Q�因为根据ServletContext的JavaDoc�Q�应用服务器可以处于安全的原因对于context.getContext("/appA");�q�回�I��|��以上做法在Weblogic Server 8.1中通过�?/p>
那么Weblogic Server��Z��么要把所有的应用�E�序的cookie路径都设�?呢？原来是�ؓ了SSO�Q�凡是共享这个session的应用程序都可以�׃�n认证的信息。一个简单的实验��可以证明这一点，修改首先��d��的那个应用程序的描述�W�weblogic.xml�Q�把cookie路径修改�?appA讉K��另外一个应用程序会重新要求��d��Q�即使是反过来，先访问cookie路径�?的应用程序，再访问修改过路径的这个，虽然不再提示��d��Q�但是登录的用户信息也会丢失。注意做�q�个实验时认证方式应该��用FORM�Q�因为浏览器和web服务器对basic认证方式有其他的处理方式�Q�第二次��h��的认证不是通过session来实现的。具体请参看[7] secion 14.8 Authorization�Q�你可以修改所附的�C�Z��E�序来做�q�些试验�?/p>
八、�ȝ��
session机制本��n�q�不复杂�Q�然而其实现和配�|�上的灵�z�L��却使得具体情况复杂多变。这也要求我们不能把仅仅某一�ơ的�l�验或者某一个浏览器�Q�服务器的经验当作普遍适用的经验，而是始终需要具体情况具体分析�?/p>
关于作者：
郎云鹏（dev2dev ID: hippiewolf�Q�，软�g工程师，从事J2EE开�?br />电子邮�g�Q�langyunpeng@yahoo.com.cn
地址�Q�大�q��Y件园�?1��L��技大厦A座大�q�博涵咨询服务有限公�?/p>
参考文档：
[1] Preliminary Specification http://wp.netscape.com/newsref/std/cookie_spec.html
[2] RFC2109 http://www.rfc-editor.org/rfc/rfc2109.txt
[3] RFC2965 http://www.rfc-editor.org/rfc/rfc2965.txt
[4] The Unofficial Cookie FAQ http://www.cookiecentral.com/faq/
[5] http://e-docs.bea.com/wls/docs70/webapp/weblogic_xml.html#1036869
[6] http://e-docs.bea.com/wls/docs70/webapp/sessions.html#100770
[7] RFC2616 http://www.rfc-editor.org/rfc/rfc2616.txt
代码下蝲�Q?a >sampleApp.zip

java执著�?/a> 2006-09-19 14:35 发表评论

Thu, 29 Jun 2006 08:56:00 GMT

�q�是一��程序员写给�E�序员的��味�ȝ��。所谓趣��x��指可以比较轻村֜�了解一些原来不清楚的概念，增进知识�Q�类��g��打RPG游戏的升�U�。整理这��文章的动机是两个问题：

问题一�Q��?/font>

使用Windows��C��本的“另存�ؓ”，可以在GBK、Unicode、Unicode big endian和UTF-8�q�几�U�编码方式间�怺�转换。同��h��txt文�g�Q�Windows是怎样识别�~�码方式的呢�Q?/font>

�? 很早前就发现Unicode、Unicode big endian和UTF-8�~�码的txt文�g的开头会多出几个字节�Q�分别是FF、FE �Q�Unicode�Q?FE、FF�Q�Unicode big endian�Q?EF、BB、BF�Q�UTF-8�Q�。但�q�些标记是基于什么标准呢�Q?/font>

问题二：

最 �q�在�|�上看到一个ConvertUTF.c�Q�实��C��UTF-32、UTF-16和UTF-8�q�三�U�编码方式的�怺�转换。对于Unicode(UCS2)�? GBK、UTF-8�q�些�~�码方式�Q�我原来��׃��解。但�q�个�E�序让我有些�p�涂�Q�想不�v来UTF-16和UCS2有什么关�p�R��?/font>

查了查相兌��料，�ȝ��这些问题弄清楚了，��带也了解了一些Unicode的细节。写成一��文章，送给有过�c�M��疑问的朋友。本文在写作时尽量做到通俗易懂�Q�但要求读者知道什么是字节�Q�什么是十六�q�制�?/font>

0、big endian和little endian

big endian 和little endian是CPU处理多字节数的不同方式。例如“汉”字的Unicode�~�码�?C49。那么写到文仉��Ӟ��I�竟是将6C写在前面�Q? �q�是��?9写在前面�Q�如果将6C写在前面�Q�就是big endian。如果将49写在前面�Q�就是little endian�?/font>

“endian”这个词��《格列佛游记》。小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开�q�是从小�?Little-Endian)敲开�Q�由此曾发生�q�六�ơ叛乱，一个皇帝送了命，另一个丢了王位�?/font>

我们一般将endian��译成“字节序”，��big endian和little endian�U�C��“大��䏀�和“小��䏀��?/font>

1、字�W�编码、内码，��带介绍汉字�~�码

字符必须�~�码后才能被计算机处理。计��机使用的缺省编码方式就是计��机的内码。早期的计算��Z��?位的ASCII�~�码�Q��ؓ了处理汉字，�E�序员设计了用于��体中文的GB2312和用于繁体中文的big5�?/font>

GB2312(1980�q?一共收录了7445个字�W�，包括6763个汉字和682个其它符受��汉字区的内码范围高字节从B0-F7�Q�低字节从A1-FE�Q�占用的码位�?2*94=6768。其中有5个空位是D7FA-D7FE�?/font>

GB2312支持的汉字太��?995�q�的汉字扩展规范GBK1.0收录�?1886个符��P��它分为汉字区和图形符号区。汉字区包括21003个字�W��?/font>

从ASCII�? GB2312到GBK�Q�这些编码方法是向下兼容的，卛_��一个字�W�在�q�些�Ҏ��中��L��有相同的�~�码�Q�后面的标准支持更多的字�W�。在�q�些�~�码中，英文和中文可�? �l�一地处理。区分中文编码的�Ҏ��是高字节的最高位不�ؓ0。按照程序员的称��|��GB2312、GBK都属于双字节字符集�?DBCS)�?/font>

2000 �q�的GB18030是取代GBK1.0的正式国家标准。该标准收录�?7484个汉字，同时�q�收录了藏文、蒙文、维向ְ�文等主要的少数民族文字。从汉字�? 汇上��_��GB18030在GB13000.1�?0902个汉字的基础上增加了CJK扩展A�?582个汉字（Unicode�?x3400- 0x4db5�Q�，一共收录了27484个汉字�?/font>

CJK��是中日韩的意思。Unicode��Z��节省码位�Q�将中日韩三国语�a�中的文字�l�一�~�码。GB13000.1��是ISO/IEC 10646-1的中文版�Q�相当于Unicode 1.1�?/font>

GB18030 的编码采用单字节、双字节�?字节�Ҏ��。其中单字节、双字节和GBK是完全兼容的�?字节�~�码的码位就是收录了CJK扩展A�?582个汉字。例如： UCS�?x3400在GB18030中的�~�码应该�?139EF30�Q�UCS�?x3401在GB18030中的�~�码应该�?139EF31�?/font>

微��Y提供了GB18030的升�U�包�Q�但�q�个升��包只是提供了一套支持CJK扩展A�?582个汉字的新字体：新宋�?18030�Q��ƈ不改变内码。Windows 的内码仍然是GBK�?/font>

�q�里�q�有一些细节：

GB2312的原文还是区位码�Q�从��Z��码到内码�Q�需要在高字节和低字节上分别加上A0�?/font>

�? 于�Q何字�W�编码，�~�码单元的顺序是��q��码方案指定的�Q�与endian无关。例如GBK的编码单元是字节�Q�用两个字节表示一个汉字。这两个字节的顺序是�? 定的�Q�不受CPU字节序的影响。UTF-16的编码单元是word�Q�双字节�Q�，word之间的顺序是�~�码�Ҏ��指定的，word内部的字节排列才会受�? endian的媄响。后面还会介�l�UTF-16�?/font>

GB2312的两个字节的最高位都是1。但�W�合�q�个条�g的码位只�? 128*128=16384个。所以GBK和GB18030的低字节最高位都可能不�?。不�q�这不媄响DBCS字符��的解析�Q�在��d��DBCS字符��时�Q�只要遇到高位�ؓ1的字节，��可以将下两个字节作��Z��个双字节�~�码�Q�而不用管低字节的高位是什么�?/font>

2、Unicode、UCS和UTF

前面提到从ASCII、GB2312、GBK到GB18030的编码方法是向下兼容的。而Unicode只与ASCII兼容�Q�更准确地说�Q�是与ISO-8859-1兼容�Q�，与GB码不兼容。例如“汉”字的Unicode�~�码�?C49�Q�而GB码是BABA�?/font>

Unicode 也是一�U�字�W�编码方法，不过它是由国际组�l�设计，可以容纳全世界所有语�a�文字的编码方案。Unicode的学名是"Universal Multiple -Octet Coded Character Set"�Q�简�U�CؓUCS。UCS可以看作�?Unicode Character Set"的羃写�?/font>

�Ҏ��l�基癄��全书(http://zh.wikipedia.org/wiki/)的记载：历史上存在两个试囄��立设计Unicode的组�l�，卛_��际标准化�l�织�Q�ISO�Q�和一个��Y件制造商的协会（unicode.org�Q�。ISO开发了ISO 10646��目�Q�Unicode协会开发了Unicode��目�?/font>

�?991�q�前后，双方都认识到世界不需要两个不兼容的字�W�集。于是它们开始合�q�双方的工作成果�Q��ƈ为创立一个单一�~�码表而协同工作。从Unicode2.0开始，Unicode��目采用了与ISO 10646-1相同的字库和字码�?/font>

目前两个��目仍都存在�Q��ƈ独立地公布各自的标准。Unicode协会现在的最新版本是2005�q�的Unicode 4.1.0。ISO的最新标准是ISO 10646-3:2003�?/font>

UCS 只是规定如何�~�码�Q��ƈ没有规定如何传输、保存这个编码。例如“汉”字的UCS�~�码�?C49�Q�我可以�?个ascii数字来传输、保存这个编码；也可以用 utf-8�~�码:3个连�l�的字节E6 B1 89来表�C�它。关键在于通信双方都要认可。UTF-8、UTF-7、UTF-16都是被广泛接受的�Ҏ��? UTF-8的一个特别的好处是它与ISO-8859-1完全兼容。UTF是“UCS Transformation Format”的�~�写�?/font>

IETF 的RFC2781和RFC3629以RFC的一贯风��|��清晰、明快又不失严�}地描�q�C��UTF-16和UTF-8的编码方法。我��L��C��得IETF�? Internet Engineering Task Force的羃写。但IETF负责�l�护的RFC是Internet上一切规范的基础�?/font>

2.1、内码和code page

目前Windows的内核已�l�支持Unicode字符集，�q�样在内�怸�可以支持全世界所有的语言文字。但是由于现有的大量�E�序和文��都采用了某�U�特定语�a�的编码，例如GBK�Q�Windows不可能不支持现有的编码，而全部改用Unicode�?/font>

Windows使用代码��?code page)来适应各个国家和地区。code page可以被理解�ؓ前面提到的内码。GBK对应的code page是CP936�?/font>

微��Y也�ؓGB18030定义了code page�Q�CP54936。但是由于GB18030有一部分4字节�~�码�Q�而Windows的代码页只支持单字节和双字节�~�码�Q�所以这个code page是无法真正��用的�?/font>

3、UCS-2、UCS-4、BMP

UCS有两�U�格式：UCS-2和UCS-4。顾名思义�Q�UCS-2��是用两个字节编码，UCS-4��是�?个字节（实际上只用了31位，最高位必须�?�Q�编码。下面让我们做一些简单的数学游戏�Q?/font>

UCS-2�?^16=65536个码位，UCS-4�?^31=2147483648个码位�?/font>

UCS -4�Ҏ��最高位�?的最高字节分�?^7=128个group。每个group再根据次高字节分�?56个plane。每个plane�Ҏ��W?个字节分�? 256行�?rows)�Q�每行包�?56个cells。当然同一行的cells只是最后一个字节不同，其余都相同�?/font>

group 0的plane 0被称作Basic Multilingual Plane, 即BMP。或者说UCS-4中，高两个字节�ؓ0的码位被�U�C��BMP�?/font>

��UCS-4的BMP��L��前面的两个零字节��得��C��UCS-2。在UCS-2的两个字节前加上两个零字节，��得��C��UCS-4的BMP。而目前的UCS-4规范中还没有��M��字符被分配在BMP之外�?/font>

4、UTF�~�码

UTF-8��是�?位�ؓ单元对UCS�q�行�~�码。从UCS-2到UTF-8的编码方式如下：

UCS-2�~�码(16�q�制) UTF-8 字节��?二进�?

0000 - 007F 0xxxxxxx

0080 - 07FF 110xxxxx 10xxxxxx

0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx

例如“汉”字的Unicode�~�码�?C49�?C49�?800-FFFF之间�Q�所以肯定要�?字节模板了： 1110 xxxx 10 xxxxxx 10 xxxxxx。将6C49写成二进制是�Q?110 110001 001001�Q� 用�q�个比特��依�ơ代替模板中的x�Q�得刎ͼ� 1110 0110 10 110001 10 001001�Q�即E6 B1 89�?/font>

读者可以用��C��本测试一下我们的�~�码是否正确。需要注意，UltraEdit在打开utf-8�~�码的文本文件时会自动�{换�ؓUTF-16�Q�可能��生�؜淆。你可以在设�|�中��x��q�个选项。更好的工具是Hex Workshop�?/font>

UTF -16�?6位�ؓ单元对UCS�q�行�~�码。对于小�?x10000的UCS码，UTF-16�~�码��q��于UCS码对应的16位无�W�号整数。对于不��于 0x10000的UCS码，定义了一个算法。不�q�由于实际��用的UCS2�Q�或者UCS4的BMP必然��于0x10000�Q�所以就目前而言�Q�可以认为UTF -16和UCS-2基本相同。但UCS-2只是一个编码方案，UTF-16却要用于实际的传输，所以就不得不考虑字节序的问题�?/font>

5、UTF的字节序和BOM

UTF -8以字节�ؓ�~�码单元�Q�没有字节序的问题。UTF-16以两个字节�ؓ�~�码单元�Q�在解释一个UTF-16文本前，首先要弄清楚每个�~�码单元的字节序。例�? “奎”的Unicode�~�码�?94E�Q�“乙”的Unicode�~�码�?E59。如果我们收到UTF-16字节��?94E”，那么�q�是“奎”还�? “乙”？

Unicode规范中推荐的标记字节��序的方法是BOM。BOM不是“Bill Of Material”的BOM表，而是Byte Order Mark。BOM是一个有点小聪明的想法：

在UCS �~�码中有一个叫�?ZERO WIDTH NO-BREAK SPACE"的字�W�，它的�~�码是FEFF。而FFFE在UCS中是不存在的字符�Q�所以不应该出现在实际传输中。UCS规范��我们在传输字节流前，先传输字�W?ZERO WIDTH NO-BREAK SPACE"�?/font>

�q�样如果接收者收到FEFF�Q�就表明�q�个字节��是Big-Endian的；如果收到FFFE�Q�就表明�q�个字节��是Little-Endian的。因此字�W?ZERO WIDTH NO-BREAK SPACE"又被�U�C��BOM�?/font>

UTF -8不需要BOM来表明字节顺序，但可以用BOM来表明编码方式。字�W?ZERO WIDTH NO-BREAK SPACE"的UTF-8�~�码�? EF BB BF�Q�读者可以用我们前面介绍的编码方法验证一下）。所以如果接收者收��C��EF BB BF开头的字节��，��q��道这是UTF-8�~�码了�?/font>

Windows��是使用BOM来标记文本文件的�~�码方式的�?/font>

6、进一步的参考资�?/font>

本文主要参考的资料是�?Short overview of ISO-IEC 10646 and Unicode" (http://www.nada.kth.se/i18n/ucs/unicode-iso10646-oview.html)�?/font>

我还找了两篇看上��M��错的资料�Q�不�q�因为我开始的疑问都找��C��{�案�Q�所以就没有看：

"Understanding Unicode A general introduction to the Unicode Standard" (http://scripts.sil.org/cms/scrip ... S-Chapter04a)

"Character set encoding basics Understanding character set encodings and legacy encodings" (http://scripts.sil.org/cms/scrip ... WS-Chapter03)

我写�q�UTF-8、UCS-2、GBK�怺�转换的��Y件包�Q�包括��用Windows API和不使用Windows API的版本。以后有旉��的话�Q�我会整理一下放到我的个��Z��上(http://fmddlmyy.home4u.china.com)�?/font>

我是��x��楚所有问题后才开始写�q�篇文章的，原以��Z��会儿��p��写好。没惛_��考虑措辞和查证细节花费了很长旉��Q�竟然从下午1:30写到9:00。希望有读者能从中受益�?/font>

附录1 再说说区位码、GB2312、内码和代码��?/font>

有的朋友�Ҏ��章中�q�句话还有疑问：
“GB2312的原文还是区位码�Q�从��Z��码到内码�Q�需要在高字节和低字节上分别加上A0。�?/font>

我再详细解释一下：

“GB2312 的原文”是指国�?980�q�的一个标准《中华�h民共和国国家标准信息交换用汉字编码字�W�集基本集 GB 2312-80》。这个标准用两个数来�~�码�? 字和中文�W�号。第一个数�U�Cؓ“区”，�W�二个数�U�Cؓ“位”。所以也�U�Cؓ��Z��码�?-9区是中文�W�号�Q?6-55区是一�U�汉字，56-87区是二��汉字。现�? Windows也还有区位输入法�Q�例如输�?601得到“啊”。（�q�个��Z��输入法可以自动识�?6�q�制的GB2312�?0�q�制的区位码�Q�也��是说输�? B0A1同样会得到“啊”。）

内码是指操作�pȝ��内部的字�W�编码。早期操作系�l�的内码是与语言相关的。现在的Windows在系�l�内部支持Unicode�Q�然后用代码��适应各种语言�Q�“内码”的概念��比较模�p�了。微软一般将�~�省代码��|��定的�~�码说成是内码�?/font>

内码�q�个词汇�Q��ƈ没有什么官方的定义�Q�代码页也只是微软这个公司的叫法。作为程序员�Q�我们只要知道它们是什么东西，没有必要�q�多地考证�q�些名词�?/font>

所谓代码页(code page)��是针对一�U�语�a�文字的字�W�编码。例如GBK的code page是CP936�Q�BIG5的code page是CP950�Q�GB2312的code page是CP20936�?/font>

Windows中有�~�省代码��늚�概念�Q�即�~�省用什么编码来解释字符。例如Windows的记事本打开了一个文本文�Ӟ��里面的内�Ҏ��字节��：BA、BA、D7、D6。Windows应该��L��么解释它呢�Q?/font>

�? 按照Unicode�~�码解释、还是按照GBK解释、还是按照BIG5解释�Q�还是按照ISO8859-1去解释？如果按GBK去解释，��׃��得到“汉字”两�? 字。按照其它编码解释，可能找不到对应的字符�Q�也可能扑ֈ�错误的字�W�。所谓“错误”是指与文本作者的本意不符�Q�这时就产生了�ؕ码�?/font>

�{�案是Windows按照当前的缺省代码页去解释文本文仉��的字节流。缺省代码页可以通过控制面板的区域选项讄��。记事本的另存�ؓ中有一��ANSI�Q�其实就是按照缺省代码页的编码方法保存�?/font>

Windows的内码是Unicode�Q�它在技术上可以同时支持多个代码��c��只要文件能说明自己使用什么编码，用户又安装了对应的代码页�Q�Windows��p��正确昄��Q�例如在HTML文�g中就可以指定charset�?/font>

�? 的HTML文�g作者，特别是英文作者，认�ؓ世界上所有�h都��用英文，在文件中不指定charset。如果他使用�?x80-0xff之间的字�W�，中文 Windows又按照缺省的GBK去解释，��׃��出现��q��。这时只要在�q�个html文�g中加上指定charset的语句，例如�Q?br />
如果原作者��用的代码��和ISO8859-1兼容�Q�就不会出现��q��了�?/font>

�? 说区位码�Q�啊的区位码�?601�Q�写�?6�q�制�?x10,0x01。这和计��机�q�泛使用的ASCII�~�码冲突。�ؓ了兼�?0-7f的ASCII�~�码�Q�我们在��Z��码的高、低字节上分别加上A0。这样“啊”的�~�码��成为B0A1。我们将加过两个A0的编码也�U�CؓGB2312�~�码�Q�虽然GB2312的原文根�? 没提到这一炏V�?

java执著�?/a> 2006-06-29 16:56 发表评论

[转蝲]UTF-16

Thu, 29 Jun 2006 08:51:00 GMT

UTF-16是Unicode的其中一个��用方式�?UTF�?Unicode Translation Format�Q�即把Unicode转做某种格式的意思�?

它定义于ISO/IEC 10646-1的附录Q�Q�而RFC2781也定义了�怼�的做法�?

在Unicode基本多文�U��^面定义的字符�Q�无论是拉丁字母、汉字或其他文字或符��P��Q�一律��?字节储存。而在辅助�q�面定义的字�W�，会以代理�?/i>�Q�surrogate pair�Q�的形式�Q�以两个2字节的值来储存�?

UTF-16比�vUTF-8�Q�好处在于大部分字符都以固定长度的字�?(2字节) 储存�Q�但UTF-16却无法兼容于ASCII�~�码�?

UTF-16的编码模�?/font>

UTF-16的大��ֺ�和小��ֺ�储存形式都在用。一般来��_��以Macintosh制作或储存的文字使用大尾序格式，以Microsoft或Linux制作或储存的文字使用��尾序格式�?

��Z��弄清楚UTF-16文�g的大��尾序，在UTF-16文�g的开首，都会攄��一个U+FEFF字符作�ؓByte Order Mark (UTF-16LE �?FF FE 代表�Q�UTF-16BE �?FE FF 代表)�Q�以昄��q�个文字��案是以UTF-16�~�码�?

以下的例子有四个字符�Q�“朱”、半角逗号、“聿”、“𨮁”�?

使用 UTF-16 �~�码的例�?

�~�码名称 �~�码�ơ序 �~�码

UTF-16LE ��尾�? 31 67, 2C 00, 7F 80, 62 D8 81 DF

UTF-16BE 大尾�? 67 31, 00 2C, 80 7F, D8 62 DF 81

UTF-16 ��尾序，包含BOM FF FE, 31 67, 2C 00, 7F 80, 62 D8 81 DF

UTF-16 大尾序，包含BOM FE FF, 67 31, 00 2C, 80 7F, D8 62 DF 81

UTF-16 �?UCS-2 的关�p?

UTF-16可看成是UCS-2的父集。在没有辅助�q�面字符前，UTF-16与UCS-2所指的是同一的意思。但当引入辅助��^面字�W�后�Q�就只称为UTF-16了。现在若有��Y件声�U�自己支援UCS-2�~�码�Q�那其实是暗指它不能支援辅助�q�面字符的委婉语�?

java执著�?/a> 2006-06-29 16:51 发表评论

[转蝲]UTF-8 字符集基��

Thu, 29 Jun 2006 08:00:00 GMT

字符集简�?/font>

在所有字�W�集中，最知名可能要数被称为ASCII�?位字�W�集了。它是美国信息交换标准委员会 �Q�American Standards Committee for Information Interchange�Q�的�~�写, 为美国英语通信所�? 计。它�?28个字�W�组成，包括大小写字母、数�?-9、标点符受��非打印字符�Q�换行符、制表符�{?个）以及控制字符�Q�退根{��响铃等�Q�组成�?/font>

�? 是，�׃��他是针对��p��设计的，当处理带有音调标��P��形如汉语的拼韻I��的欧�z�文字时��׃��出现问题。因此，创徏��Z��一些包�?55个字�W�的由ASCII扩展�? 字符集。其中有一�U�通常被成为IBM字符集，它把��gؓ128-255之间的字�W�用于画囑֒��ȝ��Q�以及一些特�D�的�Ƨ洲字符。另一�U?位字�W�集�? ISO 8859-1 Latin 1�Q�也��U�CؓISO Latin-1。它把位�?28-255之间的字�W�用于拉丁字母表中特�D�语�a�字符的编码，也因�? 而得名�?/font>

�Ƨ洲语言不是地球上的唯一语言�Q�因此亚�z�和非洲语言�q�不能被8位字�W? 集所支持。仅汉语�Q�或pictograms�Q�字母表��有80000以上个字�W�。但是把汉语、日语和��南语的一些相似的字符�l�合��h��Q�在不同的语�a�里，使不同的字符代表不同的字�Q�这样只�?个字节就可以�~�码地球上几乎所有地区的文字。因此，创徏了UNICODE�~�码。它通过增加一个高字节�? ISO Latin-1字符集进行扩展，当这些高字节位�ؓ0�Ӟ��低字节就是ISO Latin-1字符。UNICODE支持�Ƨ洲、非�z�Ӏ�中东、亚�zԌ��包括 �l�一标准的东亚像形汉字和韩国像�Ş文字�Q�。但是，UNICODE�q�没有提供对诸如Braille, Cherokee, Ethiopic, Khmer, Mongolian, Hmong, Tai Lu, Tai Mau文字的支持。同时它也不支持如Ahom, Akkadian, Aramaic, Babylonian Cuneiform, Balti, Brahmi, Etruscan, Hittite, Javanese, Numidian, Old Persian Cuneiform, Syrian之类的古老的文字�?/font>

�? 实证明，对可以用ASCII表示的字�W��用UNICODE�q�不高效�Q�因为UNICODE比ASCII占用大一倍的�I�间�Q�而对ASCII来说高字节的0对他毫无用处。�ؓ了解册��个问题，��出��C��一些中间格式的字符集，他们被称为通用转换格式�Q�既UTF �Q�Universal Transformation Format�Q�。目前存在的UTF格式有：UTF-7, UTF-7.5, UTF-8, UTF -16, 以及 UTF-32。本文讨论UTF-8字符集的基础�?/font>

UTF_8字符�?/font>

UTF -8是UNICODE的一�U�变长字�W�编码，由Ken Thompson�?992�q�创建。现在已�l�标准化为RFC 3629。UTF-8�?�?个字节编码UNICODE字符。如果UNICODE字符�?个字节表�C�，则编码成UTF-8很可能需�?个字节，而如果UNICODE字符�?个字节表�C�，则编�? 成UTF-8可能需�?个字节。用4个或6个字节去�~�码一个UNICODE字符可能太多了，但很��会遇到那样的UNICODE字符�?/font>

UFT-8转换表表�C�如下：

UNICODE UTF-8
00000000 - 0000007F 0xxxxxxx
00000080 - 000007FF 110xxxxx 10xxxxxx
00000800 - 0000FFFF 1110xxxx 10xxxxxx 10xxxxxx
00010000 - 001FFFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
00200000 - 03FFFFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
04000000 - 7FFFFFFF 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

�? 际表�C�ASCII字符的UNICODE字符�Q�将会编码成1个字节，�q�且UTF-8表示与ASCII字符表示是一��L��。所有其他的UNCODE字符转化�? UTF-8��需要至��?个字节。每个字节由一个换码序列开始。第一个字节由唯一的换码序列，由n�?加一�?�l�成。n�?表示字符�~�码所需的字节数�?/font>

�C�Z��

UNICODE uCA(11001010) �~�码成UTF-8��需�?个字节：

uCA -> C3 8A

1100 1010
110xxxxx 10xxxxxx

1100 1010 -> 110xxxxx 10xxxxxx
-> 110xxxxx 10xxxxx0
-> 110xxxxx 10xxxx10
-> 110xxxxx 10xxx010
-> 110xxxxx 10xx1010
-> 110xxxxx 10x01010
-> 110xxxxx 10001010
-> 110xxxx1 10001010
-> 110xxx11 10001010
-> 11000011 10001010
-> C3 8A

UNICODE uF03F (11110000 00111111) �~�码成UTF-8��需�?个字�?

u F03F -> EF 80 BF

1111 0000 0011 1111 -> 1110xxxx 10xxxxxx 10xxxxxx
-> 11101111 10000000 10111111
-> EF 80 BF

译者注�Q�由上分析可以看刎ͼ�UNCODE到UTF-8的�{换就是先��定�~�码所需要的字节敎ͼ�然后用UNICODE�~�码位从低位到高位依�ơ填入上面表�C�Zؓx的位上，不��的高位以0补充。以上是个�h�l�验�Q�如有错误，请不惜指教，谢过�?)

UTF-8�~�码的优点：

UTF-8�~�码可以通过屏蔽位和�U�M��操作快速读写�?br />字符串比较时strcmp()和wcscmp()的返回结果相同，因此使排序变得更加容易�?br />字节FF和FE在UTF-8�~�码中永�q�不会出玎ͼ�因此他们可以用来表明UTF-16或UTF-32文本�Q�见BOM�Q?br />UTF-8 是字节顺序无关的。它的字节顺序在所有系�l�中都是一��L��Q�因此它实际上�ƈ不需要BOM�?/font>

UTF-8�~�码的缺点：

你无法从UNICODE字符数判断出UTF-8文本的字节数�Q�因为UTF-8是一�U�变长编�?br />它需要用2个字节编码那些用扩展ASCII字符集只需1个字节的字符
ISO Latin-1 是UNICODE的子集，但不是UTF-8的子�?br />8位字�W�的UTF-8�~�码会被email�|�关�q��o�Q�因为internet信息最初设计�ؓ7为ASCII码。因此��生了UTF-7�~�码�?br />UTF-8 在它的表�C�Z��使用�?00xxxxx的几率超�q?0%�Q� 而现存的实现如ISO 2022�Q��?873�Q��?429�Q� 和8859�pȝ��Q�会把它错认为是C1 控制码。因此��生了UTF-7.5�~�码�?/font>

修正的UTF-8�Q?/font>

java使用UTF-16表示内部文本�Q��ƈ支持用于字符串串行化的非标准的修正UTF-8�~�码。标准UTF-8和修正的UTF-8有两点不同：
�? 正的UTF-8中，null字符�~�码�?个字节（11000000 00000000�Q� 而不是标准的1个字节（00000000�Q�，�q�样作可以保证编�? 后的字符串中不会嵌入null字符。因此如果在�c�C语言中处理字�W�串�Q�文本不会在�W�一个null字符时截断（C字符串以null�l�尾�Q��?br />在标�? UTF-8�~�码中，��出基本多语�a�范围�Q�BMP - Basic Multilingual Plain�Q�的字符被编码�ؓ4字节格式�Q�但是在修正的UTF -8�~�码中，他们�׃��理编码对�Q�surrogate pairs�Q�表�C�，然后�q�些代理�~�码对在序列中分别重新编码。结果标准UTF-8�~�码中需�?个字�? 的字�W�，在修正后的UTF-8�~�码中将需�?个字节�?/font>

位序标志BOM

BOM�Q�Byte Order Mark�Q�是一个字�W�，它表明UNICODE文本的UTF-16,UTF-32的编码字节顺序（高字节低字节��序�Q�和�~�码方式�Q�UTF-8,UTF-16,UTF-32�Q� 其中UTF-8�~�码是字节顺序无关的�Q��?/font>

如下所�C�：

Encoding Representation
UTF-8 EF BB BF
UTF-16 Big Endian FE FF
UTF-16 Little Endian FF FE
UTF-32 Big Endian 00 00 FE FF
UTF-32 Little Endian FF FE 00 00

UTF-8 C++ �E�序�~�码�C�Z��Q?/font>

下面是四个C++函数�Q�他们分别实�?字节�?字节UNICODE和UTF-8之间的�{换�?/font>

#define MASKBITS 0x3F
#define MASKBYTE 0x80
#define MASK2BYTES 0xC0
#define MASK3BYTES 0xE0
#define MASK4BYTES 0xF0
#define MASK5BYTES 0xF8
#define MASK6BYTES 0xFC

typedef unsigned short Unicode2Bytes;
typedef unsigned int Unicode4Bytes;

void UTF8Encode2BytesUnicode(std::vector< Unicode2Bytes > input,
std::vector< byte >& output)
{
for(int i=0; i < input.size(); i++)
{
// 0xxxxxxx
if(input < 0x80)
{
output.push_back((byte)input);
}
// 110xxxxx 10xxxxxx
else if(input < 0x800)
{
output.push_back((byte)(MASK2BYTES | input >> 6));
output.push_back((byte)(MASKBYTE | input & MASKBITS));
}
// 1110xxxx 10xxxxxx 10xxxxxx
else if(input < 0x10000)
{
output.push_back((byte)(MASK3BYTES | input >> 12));
output.push_back((byte)(MASKBYTE | input >> 6 & MASKBITS));
output.push_back((byte)(MASKBYTE | input & MASKBITS));
}
}
}

void UTF8Decode2BytesUnicode(std::vector< byte > input,
std::vector< Unicode2Bytes >& output)
{
for(int i=0; i < input.size();)
{
Unicode2Bytes ch;

// 1110xxxx 10xxxxxx 10xxxxxx
if((input & MASK3BYTES) == MASK3BYTES)
{
ch = ((input & 0x0F) << 12) | (
(input[i+1] & MASKBITS) << 6)
| (input[i+2] & MASKBITS);
i += 3;
}
// 110xxxxx 10xxxxxx
else if((input & MASK2BYTES) == MASK2BYTES)
{
ch = ((input & 0x1F) << 6) | (input[i+1] & MASKBITS);
i += 2;
}
// 0xxxxxxx
else if(input < MASKBYTE)
{
ch = input;
i += 1;
}

output.push_back(ch);
}
}

void UTF8Encode4BytesUnicode(std::vector< Unicode4Bytes > input,
std::vector< byte >& output)
{
for(int i=0; i < input.size(); i++)
{
// 0xxxxxxx
if(input < 0x80)
{
output.push_back((byte)input);
}
// 110xxxxx 10xxxxxx
else if(input < 0x800)
{
output.push_back((byte)(MASK2BYTES | input > 6));
output.push_back((byte)(MASKBYTE | input & MASKBITS));
}
// 1110xxxx 10xxxxxx 10xxxxxx
else if(input < 0x10000)
{
output.push_back((byte)(MASK3BYTES | input >> 12));
output.push_back((byte)(MASKBYTE | input >> 6 & MASKBITS));
output.push_back((byte)(MASKBYTE | input & MASKBITS));
}
// 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
else if(input < 0x200000)
{
output.push_back((byte)(MASK4BYTES | input >> 18));
output.push_back((byte)(MASKBYTE | input >> 12 & MASKBITS));
output.push_back((byte)(MASKBYTE | input >> 6 & MASKBITS));
output.push_back((byte)(MASKBYTE | input & MASKBITS));
}
// 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
else if(input < 0x4000000)
{
output.push_back((byte)(MASK5BYTES | input >> 24));
output.push_back((byte)(MASKBYTE | input >> 18 & MASKBITS));
output.push_back((byte)(MASKBYTE | input >> 12 & MASKBITS));
output.push_back((byte)(MASKBYTE | input >> 6 & MASKBITS));
output.push_back((byte)(MASKBYTE | input & MASKBITS));
}
// 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
else if(input < 0x8000000)
{
output.push_back((byte)(MASK6BYTES | input >> 30));
output.push_back((byte)(MASKBYTE | input >> 18 & MASKBITS));
output.push_back((byte)(MASKBYTE | input >> 12 & MASKBITS));
output.push_back((byte)(MASKBYTE | input >> 6 & MASKBITS));
output.push_back((byte)(MASKBYTE | input & MASKBITS));
}
}
}

void UTF8Decode4BytesUnicode(std::vector< byte > input,
std::vector< Unicode4Bytes >& output)
{
for(int i=0; i < input.size();)
{
Unicode4Bytes ch;

// 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
if((input & MASK6BYTES) == MASK6BYTES)
{
ch = ((input & 0x01) << 30) | ((input[i+1] & MASKBITS) << 24)
| ((input[i+2] & MASKBITS) << 18) | ((input[i+3]
& MASKBITS) << 12)
| ((input[i+4] & MASKBITS) << 6) | (input[i+5] & MASKBITS);
i += 6;
}
// 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
else if((input & MASK5BYTES) == MASK5BYTES)
{
ch = ((input & 0x03) << 24) | ((input[i+1]
& MASKBITS) << 18)
| ((input[i+2] & MASKBITS) << 12) | ((input[i+3]
& MASKBITS) << 6)
| (input[i+4] & MASKBITS);
i += 5;
}
// 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
else if((input & MASK4BYTES) == MASK4BYTES)
{
ch = ((input & 0x07) << 18) | ((input[i+1]
& MASKBITS) << 12)
| ((input[i+2] & MASKBITS) << 6) | (input[i+3] & MASKBITS);
i += 4;
}
// 1110xxxx 10xxxxxx 10xxxxxx
else if((input & MASK3BYTES) == MASK3BYTES)
{
ch = ((input & 0x0F) << 12) | ((input[i+1] & MASKBITS) << 6)
| (input[i+2] & MASKBITS);
i += 3;
}
// 110xxxxx 10xxxxxx
else if((input & MASK2BYTES) == MASK2BYTES)
{
ch = ((input & 0x1F) << 6) | (input[i+1] & MASKBITS);
i += 2;
}
// 0xxxxxxx
else if(input < MASKBYTE)
{
ch = input;
i += 1;
}
output.push_back(ch);
}
}

限译者水�q�x��限，有不解之处请参考原文。版权属原文作者所有，转蝲��h��明出处及作者�?/font>

原文参见�Q?a target="_blank">http://www.codeguru.com/Cpp/misc ... article.php/c10451/

java执著�?/a> 2006-06-29 16:00 发表评论

Mon, 27 Mar 2006 09:00:00 GMT
现在的开发技术的发展的速度比�v开发者的学习速度不知道要快多��，每隔一两天��׃��有一个开源的工程诞生�Q�学习如何去使用�q�些开源的工程不如学习一下其中的思想。比如Hibernate�Q�ibatis�{�ORM�{�framework它只不过是帮你摆脱那些DAO模式为每个数据对象作一个DAO对象专门来负责数据库操作�Q�你可以用一个统一的接口来�q�行数据库的操作。与其去专研如何去配�|�，如何��M��用还不如��d��好的研究一些他所体现的一些思想�Q�比如数据库查询的优化，利用�~�存机制�Q�数据库�q�接池等�{��?br />�q�有��是spring�Q�它到底体现了什么是用来替换现在的J2EE的技术，不，��p��spring的作者都说是在合时的情况下��用合适的技术，一句看似空�z�的话却包含了深意。spring的核心思想在我看来��是DI�Q�他在其他的open source的项目的基础上加以抽象，比如他提供了spring mvc--可以��M��用底层的web mvc可以有很多，但是现在可以用一个统一的接口来调用�Q�底层的实现机制与上层无养I��q�不证实了分层开发的思想吗，DI的思想正是用接口编�E��?br />技术的快速的发展�Q�给开发者带了很多的学习的难度，但是开发者如何来面对�q�种挑战�Q�与其掌握如何去使用�q�不如去掌握它的思想。只有掌握了思想是用时才会有更深的理解�?img src ="http://m.tkk7.com/illhan/aggbug/37639.html" width = "1" height = "1" />

java执著�?/a> 2006-03-27 17:00 发表评论

BlogJava

Wed, 08 Mar 2006 12:52:00 GMT

今天来了BlogJava开了自��q��Bolg�Q�工作了一�q�_��在公�怸�用java的机会�ƈ不是很多�Q�但是在有限的几个项目中我都选择了java作�ؓ我的开发语�a��Q��ƈ且用了许多开源的java的工��P��Hibernate�Q�Ant�Q�Log4J�Q�Dom4j�{�等�Q�我是一个追求新事物的�h�Q�对于眼前那许许多多的java的开源的��目�Q�我也有些茫然。然而上个礼拜去Sybase公司面试的经历，却让我重新认识了原来我懂得尽然是那么��。Java的本质是什么，JVM是怎么工作的，gc是怎么工作的，ClassLoad是什么样的，现在的程序员有几个�h能真正回�{�的完整的，也许很少。看着那些滔滔不绝说出��C��什么新技术的人，我只有暗地里感到�Q�我真的惛_��劝那些朋友有�I�好好去看看JVM的书�Q�不要满口说什么新的技术�?/P>

java执著�?/a> 2006-03-08 20:52 发表评论

UCS-2�~�码(16�q�制)	UTF-8 字节��?二进�?
0000 - 007F	0xxxxxxx
0080 - 07FF	110xxxxx 10xxxxxx
0800 - FFFF	1110xxxx 10xxxxxx 10xxxxxx

使用 UTF-16 �~�码的例�?
�~�码名称	�~�码�ơ序	�~�码
UTF-16LE	��尾�?	31 67, 2C 00, 7F 80, 62 D8 81 DF
UTF-16BE	大尾�?	67 31, 00 2C, 80 7F, D8 62 DF 81
UTF-16	��尾序，包含BOM	FF FE, 31 67, 2C 00, 7F 80, 62 D8 81 DF
UTF-16	大尾序，包含BOM	FE FF, 67 31, 00 2C, 80 7F, D8 62 DF 81

韩国亚洲伊人久久综合影院,亚洲中文字幕久久精品无码A,亚洲H在线播放在线观看H

[转]Java/J2EE中文问题�l�极解决之道

[转蝲]Session详解

0、big endian和little endian

1、字�W�编码、内码，��带介绍汉字�~�码

2、Unicode、UCS和UTF

2.1、内码和code page

3、UCS-2、UCS-4、BMP

4、UTF�~�码

5、UTF的字节序和BOM

6、进一步的参考资�?/font>

附录1 再说说区位码、GB2312、内码和代码��?/font>

[转蝲]UTF-16

UTF-16的编码模�?/font>

UTF-16 �?UCS-2 的关�p?

[转蝲]UTF-8 字符集基���

BlogJava

[转蝲]UTF-8 字符集基��