亚洲精品国产福利一二区,亚洲欧洲日韩国产一区二区三区,国产成+人+综合+亚洲专

矛_��@ — Sat, 08 Aug 2009 14:31:00 GMT

�? 件系�l�是操作�pȝ��与驱动器之间的接口，当操作系�l�请求从��盘里读取一个文件时�Q�会��h��相应的文件系�l�（FAT 16/32/NTFS�Q�打开文�g。扇区是��盘最��的物理存储单元�Q�但�׃��操作�pȝ��无法�Ҏ��目众多的扇区�q�行��d��Q�所以操作系�l�就��相�ȝ��扇区�l�合在一��P�� 形成一个簇�Q�然后再对簇�q�行��理。每个簇可以包括2�?�?�?6�?2�?4个扇区。显�Ӟ��是操作�pȝ��所使用的逻辑概念�Q�而非��盘的物理特性�?

��Z��更好地管理磁盘空间和更高效地从硬盘读取数据，操作�pȝ��规定一个簇中只能放�|�一个文件的内容�Q�因此文件所占用的空��_��只能是簇的整数倍；而如果文件实际大��小于一��，它也要占一��的�I�间。所以，一般情况下文�g所占空间要略大于文件的实际大小�Q�只有在��数情况下，��x��件的实际大小恰好是簇的整数倍时�Q�文件的实际大小才会与所占空间完全一致�?/p>

��是指可分配的用来保存文件的最��磁盘空��_��计算��Z��所有的信息都保存在��中。簇��小�Q�保存信息的效率��p��高。在FAT16文�g�pȝ��中，每个分区最多有65525个簇�Q�簇大小默认��gؓ32KB�Q�在FAT32文�g�pȝ��中��用的��比FAT16��，默认�?KB�?
那么在NTFS文�g�pȝ��中磁盘簇的大��设为多��才合适呢?下面看看大家的讨论：

一、在NTFS文�g�pȝ��中如何设�|�簇大小

默认的情况下�Q�在格式化的时候如果没有指定簇的大��，那么�pȝ��会根据分区的大小选择默认的簇倹{��其实在NTFS文�g�pȝ��中格式化的时候，可以�? “Format”命��o后面��d��“/a:UnitSize ”参数来指定簇的大��，UnitSize表示��大��的��|��NTFS支持512/1024/2048/4096/8192/16K/32K/64K。比�? “format d:/fs:NTFS /a:2048”�Q�表�C�将D盘用NTFS文�g�pȝ��格式化，��的��gؓ2048B�?

二、��用默认的讄��

对于初学者来��_��其实没有必要��L��工设�|�簇的大��，因�ؓ一般情况下使用默认的设�|�就可以了。比如在用NTFS文�g�pȝ��格式化分区的时候，�pȝ��会根据分区的大小自动选择默认的簇大小�Q�比�?KB�?

三、簇的大��因��盘分区大小而异

在NTFS文�g�pȝ��中，当分区的大小�?GB以下�Ӟ��的大小应该比相应的FAT32��小�Q�即��于4KB�Q�当分区的大��在2GB以上�Ӟ��2GB~2TB�Q�，��的大小应该都�ؓ4KB�?

四、��用压�~�功能对��大��的要求

在Windows 2000/XP�pȝ��中，��Z��使用压羃功能来节省磁盘空��_��必须遵��@两个条�g�Q?

1�Q�磁盘分区必��L��NTFS文�g�pȝ��Q?
2�Q�分��Z��的大小不得��过4KB�Q�默认簇的大��，�?096字节�Q��?

五、簇的大��的影响

在NTFS文�g�pȝ��中，��的大小会媄响到��盘文�g的排列，讄��适当的簇大小可以减少��盘�I�间丢失和分��Z��片的数量。如果簇讄��q�大�Q�会影响到磁盘存储效率；反之如果讄��q�小�Q�虽然会提高利用效率�Q�但是会产生大量��盘��片�?/div>

��? 盘是计算��Z��极�ؓ重要的存储设备，计算机工作所用到的全部文件系�l�和数据资料的绝大多数都存储在硬盘中。硬盘是产生计算��Y故障最主要的地方，常见的硬�? 软故障有�Q�硬盘重要参数及文�g丢失�Q�电脑不能�v动；��片�q�多�Q�电脑运行速度变慢�Q�硬盘分区后丢失定w��{�。对付硬盘��Y故障�Q�只要我们肯动脑�q�利用一些硬盘维护工��P��发挥一不怕苦、二不怕（��盘�Q�死的革命精��，外加胆大心细�Q�当然还要掌握硬盘基本常识，�q�样��可以轻松搞定（说的�Ҏ��、做��h��可不��?:( �Q�。因此，我收集了大量的资料整理汇�~�了“��盘软故障完全修复手�?#8221;�Q�希望能在与大家一起学习的�q�程中掌握硬盘常见故障的排除�Ҏ��Q�做�?#8220;自已动手、丰�? ��食”�Q�凡事不求�h的目的�?
大家知道�Q�一个硬盘要能存放文�Ӟ��必须�l�过��盘分区�Q�格式化�{�操作步骤，因�ؓ�l�过�q�些步骤之后�Q�在��盘中就建立起了��d��区，引导分区�Q�确定了FAT16�? FAT32文�g表。主分区的作用是保存��盘中各逻辑分区在盘片上起始位置和终止位�|�及分区的容量大��。引导分区的作用是在固定的位�|�存放有操作�pȝ��文�g�Q? 在电脑送电或复位时�Q�由BIOS�E�序��处于固定位�|�的�pȝ��文�g装入内存�Q�再��电脑控制权交给�pȝ��文�g��完成引��D��E�。扩展分��Z��Z��个主分区占用了主�? ��的一个表��V��在扩展分区起始位置所指示的扇区（卌��分区的第一个扇区）中，包含有第一个逻辑分区表，同样�?BEH字节开始，每个分区表项占用16�? 字节。逻辑分区表一般包含两个分��，一个指向某逻辑分区�Q�另一个则指向下一个扩展分区。下一个扩展分区的首扇区又包含了一个逻辑分区表，
�q�样以此�c�L��Q�扩展分��Z��可以包含多个逻辑分区。下面我们就来学习一下硬盘数据的基本�l�构�?
�?��盘的数据结�?�?
�?MBR�Q�Main Boot Record ��d��D��录区�Q?
MBR位于整个��盘�?��道0柱面1扇区�Q�包括硬盘引导程序和分区表。在��d��512字节的硬盘主引导扇区中，MBR只占用了其中�?46个字节，其最后两个字�?#8220;55 AA”是分区的�l�束标志。另外的64个字节交�l�了DPT�Q�Disk Partition Table ��盘分区表）�Q�从1BEH字节开始，共占�?4个字节，包含四个分区表项。每个分��的长度�?6个字节，它包含一个分区的引导标志、系�l�标志、�v始和 �l�尾的柱面号、扇区号、磁头号以及本分区前面的扇区数和本分区所占用的扇区数。其�?#8220;引导标志”表明此分区是否可引导�Q�即是否�z�d��分区。当引导标志�? “80”�Ӟ��此分��Zؓ�z�d��分区�Q?#8220;�pȝ��标志”军_��了该分区的类型，�?#8220;06”为FAT16分区�Q?#8220;0B”为FAT32分区�Q?#8220;07”为NTFS�? 区，“63”为UNIX分区�Q�等�Q��v始和�l�尾的柱面号、扇区号、磁头号指明了该分区的�v始和�l�止位置�?
我们假设一个硬盘分��?BEH字节开始的16个字节�ؓ 80 01 01 00 06 0D 68 6D 28 00 00 00 78 20 03 00
��盘分区表项�?6个字节分配如下：
�W?字节�Q�是一个分区的�Ȁ�z�L��志，表示�pȝ��可引对{��如�?则表�C�非�z�d��分区�?
�W?字节�Q�该分区起始��头�Q�HEAD�Q�号
�W?字节�Q�该分区起始扇区�Q�Sector�Q�号
�W?字节�Q�该分区起始的柱面（Cylinder�Q�号
�W?字节�Q�该分区�pȝ��c�d��标志
�W?�?字节�Q�该分区�l�止��头�Q�HEAD�Q�号、分区结束的扇区受��分区结束的柱面�?
�W?-12字节�Q�该分区首扇区的相对扇区�?
�W?3-16字节�Q�该分区占用的扇区��L��
以上参数我们可以用NU 8.0中DISKEDIT工具软�g可轻松获取，其功能非常强大，但应用不当会有很大错误，请各位注意��用方法。操作步骤如下：
以一台硬盘�ؓ270 MB�Q�分为C盘（100 MB�Q�和D盘（170 MB�Q�的机子�Q�老掉牙了 ^_^�Q��ؓ例，在纯DOS下启动DISKEDIT → 在对象菜单（Object�Q�上选中驱动器（Drive�Q�和物理��盘选项后确�?→ 在对象菜单（Object�Q�上选中分区表（Partition Table�Q?→ 在显�C��单（View�Q�中选择十六�q�制�Q�Hex�Q?
以下数据��Z��分区信息�Q?
000001B0: 00 00 00 00 00 00 00 00 - 00 00 00 00 00 00 80 01
000001C0: 01 00 06 0D 68 6D 28 00 - 00 00 78 20 03 00 00 00
000001D0: 41 6E 05 0D E8 AE A0 20 - 03 00 30 EE 04 00 00 00
000001E0: 00 00 00 00 00 00 00 00 - 00 00 00 00 00 00 00 00
000001F0: 00 00 00 00 00 00 00 00 - 00 00 00 00 00 00 55 AA
�?DBR�Q�Dos Boot Record 操作�pȝ��引导记录区）
它通常位于��盘�?��道1柱面1扇区�Q�是操作�pȝ��可直接访问的�W�一个扇区，它包括一个引导程序和一个被�U�CؓBPB�Q�BIOS Parameter Block�Q�的本分区参数记录表。引导程序的主要��d��是当MBR��系�l�控制权交给它时�Q�判断本分区跟目录前两个文�g是不是操作系�l�的引导文�g�Q�以DOS�? 例，��x��Io.sys和Msodos.sys�Q�。如果确定存在，��把它们��d��内存�Q��ƈ把控制权交给该文件。BPB参数块记录着本分区的起始扇区、结束扇区、文件存储格式、硬盘介质描�q�符、根目录大小、FAT个数、分配单元的大小�{�重要参数。DBR是由高��格式化程序（即Format�{�程序）所产生的�?
�?FAT�Q�File Allocation Table 文�g分配表）
FAT是DOS、Windows 9X�pȝ��的文件寻址格式�Q�位于DBR之后�?
在解释文件分配表的概�늚�时候，我们有必要谈谈簇�Q�Cluster�Q�的概念。文件占用磁盘空��_��基本单位不是字节而是��。一般情况下�Q��Y盘每��是1个扇区，��盘每簇的扇区数与硬盘的��d��量大��有养I��可能�?�?�?6�?2�?4……
同一个文件的数据�q�不一定完整地存放在磁盘的一个连�l�的区域内，而往往会分成若�q�段�Q�像一条链子一样存放。这�U�存储方式称为文件的铑ּ�存储。由于硬盘上�? 存着�D�与�D�之间的�q�接信息�Q�即FAT�Q�，操作�pȝ��在读取文件时�Q��L��能够准确地找到各�D늚�位置�q�正��读出�?
��Z��实现文�g的链式存储，��盘上必��d��地记录哪些��已�l�被文�g占用�Q�还必须为每个已�l�占用的��指明存储后�l�内容的下一个簇的簇受��对一个文件的最后一 ��，则要指明本簇无后�l�簇。这些都是由FAT表来保存的，表中有很多表��，每项记录一个簇的信息。由于FAT对于文�g��理的重要性，所以�ؓ了安全�v 见，FAT有一个备份，卛_��原FAT的后面再��Z��个同��L��FAT。初形成的FAT中所有项都标明�ؓ“未占�?#8221;�Q�但如果��盘有局部损坏，那么格式化程序会�� 出损坏的簇�Q�在相应的项中标�?#8220;坏簇”�Q�以后存文�g时就不会再��用这个簇了。FAT的项��C��盘上的�ȝ��数相当，每一��占用的字节��C��要与�ȝ��数相�? 应，因�ؓ其中需要存攄��受��FAT的格式有多种�Q�最为常见的是FAT16和FAT32�?
�?DIR �Q�Directory 根目录区�Q?
DIR位于�W�二个FAT表之后，记录着根目录下每个文�g�Q�目录）的�v始单元，文�g的属性等。定位文件位�|�时�Q�操作系�l�根据DIR中的起始单元�Q�结合FAT表就可以知道文�g在硬盘中的具体位�|�和大小了�?
�?DATA�Q�数据区�Q?
数据区是真正意义上的数据存储的地方，位于DIR��Z��后，占据��盘的大部分�I�间。当��数据复制到��盘�Ӟ��数据��存攑֜�DATA区�?/div>

矛_��@ 2009-08-08 22:31 发表评论

矛_��@ — Sat, 08 Aug 2009 01:01:00 GMT

摘要: 一个java正规表达式工��L�� c�M��用到�?jakarta-oro-2.0.jar 包，请大家自己在 apache�|�站下下�? 在这是junit��试单元�c�L��׃��提交了，在main()�Ҏ��中有几个��测试，有兴��自��q��? �q�个工具�cȝ��前主要有25�U�正规表辑ּ�(有些不常用，但那时才仔细深入的研�I�了一下正规，写上瘾了�Q�就当时能想到的都写�?: 匚w��图象; 2 匚w��email�?.. 阅读全文

矛_��@ 2009-08-08 09:01 发表评论

矛_��@ — Fri, 31 Jul 2009 12:45:00 GMT

每个�E�序员都应牢记的7�U�坏味道�Q?1�U�原则，23�U�模�?

(一)7�U�设计坏味道
1.僵化性：很难对系�l�进行改动，因�ؓ每个改动都会�q��许多对系�l�其他部分的其它改动�?
2.脆弱性：对系�l�的改动会导致系�l�中和改动的地方在概念上无关的许多地方出现问题�?
3.牢固性：很难解开�pȝ��的纠�l�，使之成�ؓ一些可在其他系�l�中重用的组件�?
4.�_�滞性：做正��的事情比做错误的事情要困难�?
5.复杂�?不必要的)�Q?设计中包含有不具��M��直接好处的基��l�构�?
6.重复�?不必要的)�Q?设计中包含有重复的结构，而该重复的结构本可以使用单一的抽象进行统一�?
7.晦�ӆ性：很难阅读、理解。没有很好地表现出意图�?

(�?11�U�原�?- Principle
----�c�d��?
1.单一职责原则 - Single Responsibility Principle(SRP)
��׃��个类而言�Q�应该仅有一个引起它变化的原因�?
(职责即�ؓ“变化的原�?#8221;�?
2.开�?��闭原则 - Open Close Principle(OCP)
软�g实体�Q�类、模块、函数等�Q�应该是可以扩展的，但是不可修改�?
(对于扩展是开攄��,对于更改是封闭的.
关键是抽�?��一个功能的通用部分和实现细节部分清晰的分离开�?
开发�h员应该仅仅对�E�序中呈现出频繁变化的那些部分作出抽�?
拒绝不成熟的抽象和抽象本�w�一样重�? )
3.里氏替换原则 - Liskov Substitution Principle(LSP)
子类�?subclass)必须能够替换掉它们的基类�?superclass)�?
4.依赖倒置原则(IoCP) �?依赖注入原则 - Dependence Inversion Principle(DIP)
抽象不应该依赖于�l�节。细节应该依赖于抽象�?
(Hollywood原则: "Don't call us, we'll call you".
�E�序中所有的依赖关系都应该终止于抽象�c�d��接口�?
针对接口而非实现�~�程�?
��M��变量都不应该持有一个指向具体类的指针或引用�?
��M��c�都不应该从具体�c�L��生�?
��M��Ҏ��都不应该覆写他的��M��基类中的已经实现了的�Ҏ��?
5.接口隔离原则(ISP)
不应该强�q�客户依赖于它们不用的方法�?
接口属于客户�Q�不属于它所在的�c�d��ơ结构�?
(多个面向特定用户的接口胜于一个通用接口�?
----包内聚原�?
6.重用发布�{��h原则(REP)
重用的粒度就是发布的�_�度�?
7.共同��闭原则(CCP)
包中的所有类对于同一�c�L��质的变化应该是共同��闭的�?
一个变化若对一个包产生影响�Q?
则将对该包中的所有类产生影响�Q?
而对于其他的包不造成��M��影响�?
8.共同重用原则(CRP)
一个包中的所有类应该是共同重用的�?
如果重用了包中的一个类�Q?
那么��p��重用包中的所有类�?
(�怺�之间没有紧密联系的类不应该在同一个包中�?
----包耦合原则
9.无环依赖原则(ADP)
在包的依赖关�p�d��中不允许存在环�?
10.�E�_��依赖原则(SDP)
朝着�E�_��的方向进行依赖�?
应该把封装系�l�高层设计的软�g�Q�比如抽象类�Q�放�q�稳定的包中�Q?
不稳定的包中应该只包含那些很可能会改变的软�g�Q�比如具体类�Q��?
11.�E�_��抽象原则(SAP)
包的抽象�E�度应该和其�E�_��E�度一致�?
(一个稳定的包应该也是抽象的�Q�一个不�E�_��的包应该是抽象的. )
----其它扩展原则----
12.BBP(Black Box Principle)黑盒原则
多用�cȝ��聚合�Q�少用类的��ѝ�?
13.DAP(Default Abstraction Principle)�~�省抽象原则
在接口和实现接口的类之间引入一个抽象类,�q�个�c�d��C��接口的大部分操作.
14.IDP(Interface Design Principle)接口设计原则
规划一个接口而不是实��C��个接口�?
15.DCSP(Don't Concrete Supperclass Principle)不要构造具体的��类原则
避免�l�护具体的超�c�R�?
16.�q�米�Ҏ��?
一个类只依赖其触手可得的类�?

(�?23�U�设计模�?- Pattern.
创徏�?
Abstract Factory�Q�抽象工厂模式） -> (��单工厂模�?
Factory Method�Q�工厂模式）
Builder�Q�生成器模式�Q?
Singleton�Q�单件模式） -> (多例模式)
Prototype�Q�原型模式）
�l�构�?
Adapter�Q�适配器模式）
Bridge�Q�桥接模式）
Composite�Q�组合模式）
Decorator�Q�装饰模式）
Facade�Q�外观模式，门面模式�Q?
Flyweight�Q��n元模式） -> (不变模式)
Proxy�Q�代理模式）
行�ؓ�?
Chain of Responsibility�Q�职责链模式�Q?
Command�Q�命令模式）
Interpreter�Q�解释器模式�Q?
Iteartor�Q��P代器模式�Q?
Mediator�Q�中介者模式）
Memento�Q�备忘录模式�Q?
Observer�Q�观察者模式）
State�Q�状态模式）
Strategy�Q�策略模式）
TemplateMethod�Q�模板方法模式）
Visitor�Q�访问者模式）

��Q�http://www.javaeye.com/topic/41096

矛_��@ 2009-07-31 20:45 发表评论

�|�络服务器的性能分析

矛_��@ — Mon, 27 Jul 2009 14:13:00 GMT

矛_��@ 2009-07-27 22:13 发表评论

�E�序性能分析

矛_��@ — Mon, 27 Jul 2009 13:37:00 GMT

�q�篇文章主要是想谈谈在以CPU��Z��心的计算体系�l�构中媄响程序性能的主要因素和性能的分析方法以及多�U�程对程序性能的媄响，读这��文章首先要具备一定的体系�l�构和操作系�l�基��Q�特别是�q�程调度�Q�徏议看�?font face="Times New Roman">Operation System Concept》（中文《操作系�l�概论》）�?/font>

先定义一下程序的性能�Q�就是在单位旉��内能执行的�Q务数或者执行某个�Q务需要的旉��。显�Ӟ��在更短的旉��内执行更多的��d��性能��p��高�?/font>

CPU�?font face="Times New Roman">IO操作

�a�归正传，先看一个经典的入门�?font face="Times New Roman">C�E�序Hello World!

int main(int argc, char * args[]) { int m = 0; for (int i = 0;i < 10;i ++) { m = m+i; } printf("Hello World! 1+2+…+10=%d\n", m); return 0; }

�q�个不算原始的经典的Hello World�Q�比那个Hello World�E�微复杂了点�Q�加了一个��@环，用来计算1+2+3…+10的倹{�?/font>

如果有了操作�pȝ��q�程调度的基��Q�可以知道这个程序分成两�D�|��行，�W�一�D�|��计算1+2+…+10的��|��主要�?font face="Times New Roman">CPU�Q�中央处理单元）中进行，C代码�Q?/font>

int m = 0; for (int i = 0;i < 10;i ++) { m = m+i; }

�W�二�D�|��计��结果输出到控制台的�q�段�Q�将一串文本通过昑֍�驱动�Q�传送到昄��器上昄��Q�主要在昑֍�上进行，C代码�Q?/font>

printf("Hello World! 1+2+…+10=%d\n", m);

整个�E�序��序执行�Q�所�?font face="Times New Roman">CPU先计��完成得�?font face="Times New Roman">1+2+…+10的值后�Q�将�q�个��D�{换成一串字�W�串�Q�然后将字符串发送给昄��器，�{�待昄��器显�C�完成后�Q�整个程序结束，如果��?font face="Times New Roman">CPU执行表示��Ԍ��显�C�器执行表示为红�Ԍ��那么�E�序执行��程如下�Q?/font>

500)this.width=500;" border="0">

�?font face="Times New Roman">1

假设CPU中计��?font face="Times New Roman">1+2+…+10和将�q�个值变成字�W�串��p��?font face="Times New Roman">11ns�Q�纳�U�）�Q�而显卡将字符串显�C�到昄��器上��p��?font face="Times New Roman">7ns�Q�那么整个程序运行花费了18ns�?/font>

Hello World是最��单的�E�序�Q�也是所有其他程序的基础�Q�在�?font face="Times New Roman">CPU��Z��心的计算机结构中�Q�内存负责程序的存储�Q?font face="Times New Roman">CPU负责�E�序的运��和��程控制�Q�其他元件被看成跟上�?font face="Times New Roman">Hello World中显卡类似的外围讑֤��Q�也被称�?font face="Times New Roman">IO讑֤��Q�所以�Q何程序都可以看作是一�p�d��CPU操作和一�p�d��IO操作的符合体�Q�如下图所�C�：

500)this.width=500;" border="0" width="500">

�?font face="Times New Roman">2

所以媄响程序性能的主要因素有两个斚w��Q�一�?font face="Times New Roman">CPU操作的快慢，二是IO操作的快慢�?/strong>

所以程序性能分析的主要方法就是正��区分哪些是CPU操作�Q�哪些是IO操作�?/strong>

CPU操作通常有这些：

赋值和计算�Q�如�Q?font face="Times New Roman">m = i*j;

��程控制�Q�如�Q?font face="Times New Roman">while(true) { i ++;}

IO操作通常有这些：

��盘文�g操作�?/font>

�|�络操作�?/font>

键盘和鼠标操作�?/font>

昑֍�操作�Q�如在屏�q�上�l�图�Q�显�C�文本等�?/font>

USB操作�?/font>

串口操作�?/font>

�U�外�U�操作�?/font>

��带机操作�?/font>

通常�?font face="Times New Roman">CPU和内存外的其他设备都可以看成IO操作�Q�内存之所以不看作IO讑֤��Q�是因�ؓ内存讉K��相对IO而言�Q�通常要快几个数量�U�，所以像char * buff = new char[100];�q�样的操作通常也看�?font face="Times New Roman">CPU操作�?/font>

通过分析划分出程序的CPU操作�?font face="Times New Roman">IO操作�E�序�D�后�Q�可以有针对性的�q�行优化�?/strong>

对于CPU操作�Q�常用的提升性能的方法是优化计算和流�E�控制代码，如相乘计��?font face="Times New Roman"> m = i * 8�Q�可以��?font face="Times New Roman"> m = i << 3�Q�因��Z��操作比乘法操作速度快，通常在某�U�语�a�中都会讲到程序的优化�Q�就属于优化CPU操作速度�?/font>

对于IO操作�Q�如�?font face="Times New Roman">IO操作�q�于频繁而成为系�l�瓶颈，可以清除一些不必要�?font face="Times New Roman">IO操作�Q�也可以更换速度更快�?font face="Times New Roman">IO讑֤�来提高速度�Q�如把硬盘从5400转提升到7200转�?/font>

多线�E?/font>

下面看看多线�E�对�E�序性能的媄响，什么时候该使用多线�E�，什么时候��用多�U�程达不到预期的效果�?/font>

多线�E�是�E�序里面有像上面那样的多个执行流�E�，�q�些执行��程独立或者联合�v来完成某些�Q务�?/font>

先看看计��机只有一�?font face="Times New Roman">CPU�Q�一�?font face="Times New Roman">IO讑֤��Q�程序有两个�U�程�Q�两个线�E�执行同��L��代码�Q�可以画出执行流�E�：

500)this.width=500;" border="0" width="500">

�?font face="Times New Roman">3

�U�程1按正常的执行��程执行�Q�线�E?font face="Times New Roman">2虽然跟线�E?font face="Times New Roman">1执行同样的代码，却出现很多不�q�箋的片�D�，比如2.2à2.3�?font face="Times New Roman">2.4à2.5�Q�这是因为只有一�?font face="Times New Roman">CPU�Q�所�?font face="Times New Roman">CPU在进行线�E?font face="Times New Roman">1�?font face="Times New Roman">CPU操作�Ӟ��不能同时�q�行�U�程2�?font face="Times New Roman">CPU操作�Q�也��是2.4�?font face="Times New Roman">2.5本来是跟�U�程1�?font face="Times New Roman">1.3代码一��P��但是却被CPU分两�ơ执行，因�ؓCPU正在执行1.7�?font face="Times New Roman">2.2�?font face="Times New Roman">2.3也是同样的道理，因�ؓIO讑֤�要执�?font face="Times New Roman">1.4的代码，所�?font face="Times New Roman">2.2�?font face="Times New Roman">2.3被打断。但是两个线�E�的CPU操作�?font face="Times New Roman">IO操作在时间上可以重叠�Q�因��Z��们是不同的设备�?/font>

也就是在旉��上，CPU�?font face="Times New Roman">IO讑֤�只能同时做一件事情，CPU�?font face="Times New Roman">IO讑֤�可以各自做自��q��事情�?/strong>

考察一�U�极端的情况�Q�假设某个程序没�?font face="Times New Roman">IO操作�Q�只�?font face="Times New Roman">CPU操作�Q�那么流�E�图变成�Q?/font>

500)this.width=500;" border="0" width="500">

�?font face="Times New Roman">4

�U�程1��占用所有的CPU旉��Q�线�E?font face="Times New Roman">2��一直等待直到线�E?font face="Times New Roman">1完成�Q�因为线�E?font face="Times New Roman">1完成��d��后，依然可以再次执行��d��Q�所以这时��用线�E?font face="Times New Roman">1完成��d��和��用线�E?font face="Times New Roman">2完成��d��没有区别�Q�也��是�U�程2的存在�ƈ不会让程序多完成一些�Q务，所以线�E?font face="Times New Roman">2的存在，�q�不能提升程序性能�?/font>

所以，如果一个程序只�?font face="Times New Roman">CPU操作�Q�那么多�U�程�q�不能提升程序性能�?/strong>

同理�Q�如果一个程序只�?font face="Times New Roman">IO操作�Q�那么多�U�程�q�不能提升程序性能�?/strong>

但是多线�E�在现实中确实有提高�E�序性能的时候，那是因�ؓ实际的程序像�?font face="Times New Roman">3那样�Q�有CPU操作�?font face="Times New Roman">IO操作�l�成�Q?font face="Times New Roman">CPU操作�?font face="Times New Roman">IO操作在时间上可以重叠�Q�所以，同一旉��内，�E�序可以做更多的事情�?/font>

如果一个线�E�中CPU操作旉��?font face="Times New Roman">M�Q?font face="Times New Roman">IO操作旉��?font face="Times New Roman">N�Q�那么在单位旉��内，�q�_��?font face="Times New Roman">M/(M+N)在处�?font face="Times New Roman">CPU操作�Q�有N/(M+N)的时�?font face="Times New Roman">CPU�I�闲�Q�如果要�?font face="Times New Roman">CPU充分利用�Q�那么可以增�?font face="Times New Roman">(N/(M+N))/(M/(M+N))=N/M个线�E�来填补CPU操作的空白，�q�样CPU�?font face="Times New Roman">100%被利用，如果�U�程再增加，CPU没有�I�闲�Q�几乎不会增加程序性能�?/font>

所以，�?font face="Times New Roman">CPU 100%利用的线�E�最大数�?font face="Times New Roman">1+N/M�?/strong>

同你�Q�让IO讑֤�100%利用的线�E�最大数�?font face="Times New Roman">1+M/N�?/strong>

�q�两个公式只是一个度量式�Q�不是一个计��式�Q�因为随着�U�程数的增加�Q?font face="Times New Roman">CPU操作旉��?font face="Times New Roman">IO操作旉��会随着变化�Q?font face="Times New Roman">M�?font face="Times New Roman">N不再固定�?/font>

看两�U�常用的�E�序�Q�服务器�E�序和用户交互程序�?/font>

服务器程序通常提供某种�|�络服务�Q�如WEB服务器，�q�种�E�序要求能最大化的利�?font face="Times New Roman">CPU�?font face="Times New Roman">IO�Q�在单位旉��内处理尽可能多的��d��Q�所以应该��用尽可能�?font face="Times New Roman">CPU�?font face="Times New Roman">IO都满�W�合工作�Q�多�U�程数可以取1+N/M�?font face="Times New Roman">1+M/N中较��的��|��如果观察服务器的CPU�?font face="Times New Roman">IO使用率，会发��C��们常常接�q?font face="Times New Roman">90%�?/font>

用户交互�E�序通常�Ҏ��用户的某些输入进行相应的操作�Q�操作完成再�ơ等待用戯��入，�?font face="Times New Roman">Microsoft Word�Q�要求对用户的输入能及时反应�Q�所以操作线�E�的CPU操作�?font face="Times New Roman">IO操作应该有一定的�I�闲�Q��得用戯��入线�E�能随时获取CPU来响应用��L��输入�Q��?font face="Times New Roman">Microsoft Windows�Ӟ��打开��d��理器，可以发现CPU使用率常常很低，�?font face="Times New Roman">1%�?font face="Times New Roman">20%�?/font>

IO复用

从上面的分析可以看出�Q�多�U�程提升�E�序性能�Q�主要得益于�?font face="Times New Roman">CPU�?font face="Times New Roman">IO讑֤�能�ƈ行操作，另一�U�让CPU�?font face="Times New Roman">IO讑֤��q�行操作的方法是IO复用�Q�基本的思想是需要进�?font face="Times New Roman">IO操作�Ӟ��只是发送一�?font face="Times New Roman">IO操作��h��l?font face="Times New Roman">IO讑֤�而不必等�?font face="Times New Roman">IO完成�Q?font face="Times New Roman">CPU操作可以�l�箋�q�行�Q?font face="Times New Roman">IO操作完成后通过某种�Ҏ��如事仉��知�E�序�Q�然后程序做相应的处理，��程如下�Q?/font>

500)this.width=500;" border="0" width="500">

�?font face="Times New Roman">5

以前需�?font face="Times New Roman">18ns执行的程序，现在只需�?font face="Times New Roman">11ns��可以完成，性能提升�?/font>

常用的文件异步操作、网�l�异步操作都属于IO复用�?/font>

使用IO复用后，�E�序通常只需要一个线�E�就可以完成所有的功能�Q�减��操作系�l�线�E�间切换的开销�Q��ƈ且不需要线�E�间同步�Q�但�?font face="Times New Roman">IO复用需要��用特定的�Ҏ��监视IO状态，开发相�Ҏ��较复杂�?/font>

Window 2000�?font face="Times New Roman">IOCP�Q?font face="Times New Roman">IO Complete Port�Q�就是基�?font face="Times New Roman">IO复用的思想�?/font>

�ȝ��

虽然上面的结论是在一�?font face="Times New Roman">CPU�q�且没有考虑操作�pȝ��的进�E�调度和内存��理�{�因素的影响的前提下得出的，但是在以CPU��Z��心的计算��Z��pȝ��构中�Q?font face="Times New Roman">CPU操作�?font face="Times New Roman">IO操作的划分确实普遍适用的，�q�程调度和内存管理本�w�也可以看成�?font face="Times New Roman">CPU操作�?font face="Times New Roman">IO操作复合的程序，对于�?font face="Times New Roman">CPU的系�l�和�?font face="Times New Roman">IO讑֤�的系�l�，分析的基��是所有这些设备能�q�行操作�Q�所以上面得出的�l�论是普遍适用的�?/font>

在分析过�E�中�Q�对很多�l�论使用了粗体字�Q�是��Z��醒目�Q�不要死记硬背，要记住的是基本原理和分析�Ҏ��Q�这��h��能放之四��皆准�?br />

转自�Q�http://blog.chinaunix.net/u1/52224/showart_417513.html

矛_��@ 2009-07-27 21:37 发表评论

文本处理(一)状态机(2)

矛_��@ — Fri, 10 Jul 2009 13:16:00 GMT

�pȝ��E�序员成长计�?文本处理(一)

状态机(2)

o 用有�I�L��态机解一道面试题�?/p>
刚毕业的时候，我到一家外企面试，面试题里有这样一道题�Q?/p>
�l�计一��英文文章里的单词个数�?/p>
有多�U�方法可以解�q�道题，�q�里我们选择用有�I�L��态机来解�Q�做法如下：

先把�q�篇英文文章��d��C��个缓冲区里，让一个指针从�~�冲区的头部一直移到缓冲区的尾部，指针会处于两�U�状态：“单词�?#8221;�?#8220;单词�?#8221;�Q�加上后面提到的初始状态和接受状态，��是有穷状态机的状态集。缓冲区中的字符集合��是有穷状态机的字母表�?/p>
如果当前状态�ؓ“单词�?#8221;�Q�移到指针时�Q�指针指向的字符是非单词字符(如标点和�I�格)�Q�那状态会�?#8220;单词�?#8221;转换�?#8220;单词�?#8221;。如果当前状态�ؓ“�? 词外”�Q?�U�d��指针�Ӟ��指针指向的字�W�是单词字符(如字�?�Q�那状态会�?#8220;单词�?#8221;转换�?#8220;单词�?#8221;。这些�{换规则就是状态�{换函数�?/p>
指针指向�~�冲区的头部时是初始状态�?/p>
指针指向�~�冲区的��N��时是接受状态�?/p>
每次当状态从“单词�?#8221;转换�?#8220;单词�?#8221;�Ӟ��单词计数增加一�?br /> �q�个有穷状态机的图形表�C�如下：

下面我们看看�E�序怎么写：

int count_word(const char* text)

{

/*定义各种状态，我们不关心接受状态，�q�里可以不用定义�?/

enum _State

{

STAT_INIT,

STAT_IN_WORD,

STAT_OUT_WORD,

}state = STAT_INIT;

int count = 0;

const char* p = text;

/*在一个��@环中�Q�指针从�~�冲区头�U�d��~�冲区尾*/

for(p = text; *p != '\0'; p++)

{

switch(state)

{

case STAT_INIT:

{

if(IS_WORD_CHAR(*p))

{

/*指针指向单词字符�Q�状态�{换�ؓ单词�?/

state = STAT_IN_WORD;

}

else

{

/*指针指向非单词字�W�，状态�{换�ؓ单词�?/

state = STAT_OUT_WORD;

}

break;

}

case STAT_IN_WORD:

{

if(!IS_WORD_CHAR(*p))

{

/*指针指向非单词字�W�，状态�{换�ؓ单词外，增加单词计数*/

count++;

state = STAT_OUT_WORD;

}

break;

}

case STAT_OUT_WORD:

{

if(IS_WORD_CHAR(*p))

{

/*指针指向单词字符�Q�状态�{换�ؓ单词�?/

state = STAT_IN_WORD;

}

break;

}

default:break;

}

}

if(state == STAT_IN_WORD)

{

/*如果由单词内�q�入接受状态，增加单词计数*/

count++;

}

return count;

}

用状态机来解�q�道题目�Q�思�\清晰�Q�程序简单，不易出错�?/p>
�q�道题目只是��Z��展示一些奇技淫��y�Q�还是有一些实际用处呢�Q�回�{�这个问题之前，我们先对上面的程序做�Ҏ��展，不只是统计单词的个数�Q�而且要分��d��里面的每个单词�?/p>
int word_segmentation(const char* text, OnWordFunc on_word, void* ctx)

{

enum _State

{

STAT_INIT,

STAT_IN_WORD,

STAT_OUT_WORD,

}state = STAT_INIT;

int count = 0;

char* copy_text = strdup(text);

char* p = copy_text;

char* word = copy_text;

for(p = copy_text; *p != '\0'; p++)

{

switch(state)

{

case STAT_INIT:

{

if(IS_WORD_CHAR(*p))

{

word = p;

state = STAT_IN_WORD;

}

break;

}

case STAT_IN_WORD:

{

if(!IS_WORD_CHAR(*p))

{

count++;

*p = '\0';

on_word(ctx, word);

state = STAT_OUT_WORD;

}

break;

}

case STAT_OUT_WORD:

{

if(IS_WORD_CHAR(*p))

{

word = p;

state = STAT_IN_WORD;

}

break;

}

default:break;

}

}

if(state == STAT_IN_WORD)

{

count++;

on_word(ctx, word);

}

free(copy_text);

return count;

}

状态机不变�Q�只是在状态�{换时�Q�做是事情不一栗��这里从“单词�?#8221;转换到其它状态时�Q�增加单词计敎ͼ��q�分��d��当前的单词。至于拿分离出的单词来做什么，�׃��入的回调函数军_��Q�比如可以用来统计每个单词出现的频率�?/p>
但如果讨��是限于英文文章，�q�个�E�序的意义仍然不大，现在来做�q�一步扩展。我们考虑的文本不再是英文文章�Q�而是一些文本数据，�q�些数据�׃��些分隔符分开�Q�我们把数据�U�Cؓtoken�Q�现在我们要把这些token分离出来�?/p>
typedef void (*OnTokenFunc)(void* ctx, int index, const char* token);

#define IS_DELIM(c) (strchr(delims, c) != NULL)

int parse_token(const char* text, const char* delims, OnTokenFunc on_token, void* ctx)

{

enum _State

{

STAT_INIT,

STAT_IN,

STAT_OUT,

}state = STAT_INIT;

int count = 0;

char* copy_text = strdup(text);

char* p = copy_text;

char* token = copy_text;

for(p = copy_text; *p != '\0'; p++)

{

switch(state)

{

case STAT_INIT:

case STAT_OUT:

{

if(!IS_DELIM(*p))

{

token = p;

state = STAT_IN;

}

break;

}

case STAT_IN:

{

if(IS_DELIM(*p))

{

*p = '\0';

on_token(ctx, count++, token);

state = STAT_OUT;

}

break;

}

default:break;

}

}

if(state == STAT_IN)

{

on_token(ctx, count++, token);

}

on_token(ctx, -1, NULL);

free(copy_text);

return count;

}

用分隔符分隔的文本数据有很多�Q�如�Q?/p>
环境PATH�Q�它�?#8216;:’分开的多个�\径组成。如�Q?br /> /usr/lib/qt-3.3/bin:/usr/kerberos/bin:/backup/tools/jdk1.5.0_18/bin/:/usr/lib/ccache:/usr/local/bin:/bin:/usr/bin:/home/lixianjing/bin

文�g名，它由‘/’分开的�\径组成。如�Q?br /> /usr/lib/qt-3.3/bin

URL中的参数�Q�它‘&’分开的多个key/value对组成�?br /> hl=zh-CN&q=limodev&btnG=Google+搜烦&meta=&aq=f&oq=

所有这些数据都可以用上面的函数处理�Q�所以这个小函数是颇具实用�h值的�?/p>

矛_��@ 2009-07-10 21:16 发表评论

文本处理(一)状态机(1)

矛_��@ — Fri, 10 Jul 2009 11:37:00 GMT

�pȝ��E�序员成长计�?文本处理(一)

状态机(1)

o 有穷状态机的�Ş式定�?/p>
有穷状态机是一个五元组 (Q�Q?#931;�Q?#948;�Q�q0�Q�F)�Q�其中：
Q是一个有�I�集合，�U�Cؓ状态集�?br /> Σ是一个有�I�集合，�U�Cؓ字母表�?br /> δ: Q xΣQ�U�Cؓ状态�{�U�d��数�?br /> q0 是初始状态�?br /> F 是接受状态集�?/p>
教科书上是这样定义有�I��动机的，�q�个形式定义�_��的描�q�C��有穷状态机的含义。但是大部分�?包括我自�?�W�一�ơ看到它�Ӟ��反复的读上几遍，仍然不知道它在说什么。幸好通过一些实例，我们可以很容易明白有�I�L��态机的原理�?/p>
自动门是一个典型的有穷状态机�Q?/p>
它有“开”�?#8220;�?#8221;两种状态，�q�就是它的状态集�Q�也��是上面所说的Q�?/p>
人可以从自动门进来或出去�Q�当��来或出去的时候，自动门会自动打开�Q�如果在规定的时间内没有��出，自动门会自动关上。�h的进来、出��d��时三个事�g是自动门的字母表�Q�也��是上面所说的Σ。而自动门在当前状态下�Q�对事�g的响应，会引��L��态的变化�Q�这��是状态�{换函敎ͼ�也就是上面所说的δ�?/p>
自动门刚安装好的时候，我们可以认�ؓ它是关上的，所以关闭状态是自动门的初始状态�?/p>
在理��x��况下�Q�自动门会一直运行，所以它没有接受状态，接受状态集F是空集�?/p>
有穷状态机的�Ş式定义很�_��Q�文字描�q�比较通俗�Q�而图形表�C�则比较直观。通用建模语言�Q�UML�Q�里的状态图是状态机的常用图形表�C�方法。简单的状态图包括一些状态，用圆角方框表�C�，里面有状态的名称。状态之间的转换�Q�用��头表示�Q�上面可以加转换条�g。自动门的状态机可以用下图表�C�：

有穷状态机很简单，在生�z�M��可以扑և�很多�q�样的例子。但是教�U�书里讲得太复杂了，一会儿证明��定性有�I�L��态机和非��定性有�I�L��态机的等��h��，一会儿证明正则表达式的正则�q�算是封闭的�Q�一会儿又来个�܇引理。花了很长时��_��我才明白�q�些原理�Q�但两年之后�Q�我又把它们忘得一�q�二净�?/p>
主要原因是工作中没有��Z��q�用它们�Q�这些理论的证明于编�E�没有太大用处，不过状态机本��n却是文本处理利器�Q�由于程序员在很多场合下都是在与文本数据打交道，所以状态机是程序员必备的工具之一。这里我们将一起学习如何用状态机来处理文本数据，后面我们也会提到状态机的其它用途，不过不是本节的重炏V�?br />

文章出处�Q?a >http://www.limodev.cn/blog
作者联�p�L��式：李先�?

矛_��@ 2009-07-10 19:37 发表评论

文本处理(�?

矛_��@ — Fri, 10 Jul 2009 11:03:00 GMT

Builder模式

前面我们学习了状态机�Q��ƈ利用它来解析各种格式的文本数据。解析过�E�把�U�性的文本数据转换成一些基本的逻辑单元�Q�但�q�通常只是��d��的一部分�Q�接下来我们�q�要对这些解析出来的数据�q�一步处理。对于特定格式的文本数据�Q�它的解析过�E�是一��L��Q�但是对解析出来的数据的处理却是多种多样的。�ؓ了让解析�q�程能被重用�Q�就需要把数据的解析和数据的处理分开�?/p>
现在我们回过头来看一下前面写的函数parse_token�Q�这个函数把用分隔符分隔的文本数据，分离��Z��个一个的token�?/p>
parse_token的函数原型如下：

typedef void (*OnTokenFunc)(void* ctx, int index, const char* token);
int parse_token(const char* text, const char* delims, OnTokenFunc on_token, void* ctx)

parse_token负责解析数据�Q�但它�ƈ不关心数据代表的意义及用途。对数据的进一步处理由调用者提供的回调函数来完成，函数 parse_token每解析到一个token�Q�就调用�q�个回调函数。parse_token负责数据的解析，回调函数负责数据的处理，�q�样一来，数据的解析和数据的处理就分开了�?/p>
parse_token可以认�ؓ是Builder模式最朴素的应用。现在我们看看Builder 模式�Q?/p>
Builder 模式的意图：��一个复杂对象的构徏与它的表�C�分��，使得同样的构��E�可以创��Z��同的表示�?#8220;构徏”其实��是前面的解析过�E�，�?#8220;表示”��是前面说的�Ҏ��据的处理�?/p>
对象关系�Q?br />
上面的parse_token与这里的Director对应�?/p>
上面的回调函��C��q�里的Builder对应�?/p>
具体的回调函��C��q�里的ConcreteBuilder对应�?/p>
�Ҏ��据处理的�l�果��是Product�?/p>
对象协作�Q?br />
Client是parse_token的调用者�?/p>
�׃��parse_token是按面向�q�程的方式设计的�Q�所以ConcreteBuilder和Director的创建只是对应于一些初始化代码�?/p>
调用parse_token相当于调用aDirector的Construct函数�?/p>
调用回调函数相当于调用aConcreteBuilder的BuildPart函数�?/p>
回调函数可能把处理结果存在它的参数ctx中，GetResult是从里面获取�l�果�Q�这是可选的�q�程�Q�依赖于具体回调函数所做的工作�?/p>
parse_token的例子简单直接，对于理解Builder模式有较大的帮助�Q�不�q�毕竟它是面向过�E�的。现在我们以前面的XML解析器�ؓ例来说明Builder模式�Q�虽然我们的代码是用C写的�Q�但完全是用面向对象的思想来设计的。Builder是一个接口，我们先把它定义出来：

struct _XmlBuilder;
typedef struct _XmlBuilder XmlBuilder;

typedef void (*XmlBuilderOnStartElementFunc)(XmlBuilder* thiz, const char* tag, const char** attrs);
typedef void (*XmlBuilderOnEndElementFunc)(XmlBuilder* thiz, const char* tag);
typedef void (*XmlBuilderOnTextFunc)(XmlBuilder* thiz, const char* text, size_t length);
typedef void (*XmlBuilderOnCommentFunc)(XmlBuilder* thiz, const char* text, size_t length);
typedef void (*XmlBuilderOnPiElementFunc)(XmlBuilder* thiz, const char* tag, const char** attrs);
typedef void (*XmlBuilderOnErrorFunc)(XmlBuilder* thiz, int line, int row, const char* message);
typedef void (*XmlBuilderDestroyFunc)(XmlBuilder* thiz);

struct _XmlBuilder
{
XmlBuilderOnStartElementFunc on_start_element;
XmlBuilderOnEndElementFunc on_end_element;
XmlBuilderOnTextFunc on_text;
XmlBuilderOnCommentFunc on_comment;
XmlBuilderOnPiElementFunc on_pi_element;
XmlBuilderOnErrorFunc on_error;
XmlBuilderDestroyFunc destroy;

char priv[1];
};

static inline void xml_builder_on_start_element(XmlBuilder* thiz, const char* tag, const char** attrs)

{

return_if_fail(thiz != NULL && thiz->on_start_element != NULL);

thiz->on_start_element(thiz, tag, attrs);

return;

}

static inline void xml_builder_on_end_element(XmlBuilder* thiz, const char* tag)

{

return_if_fail(thiz != NULL && thiz->on_end_element != NULL);

thiz->on_end_element(thiz, tag);

return;

}

...
(其它inline函数不列在这里了)

XmlBuilder接口要求实现下列函数�Q?/p>
on_start_element�Q�解析器解析��C��个�v始TAG时调用它�?br /> on_end_element�Q�解析器解析��C��个结束TAG时调用它�?br /> on_text�Q�解析器解析��C��D�|��本时调用它�?br /> on_comment�Q�解析器解析��C��个注释时调用它�?br /> on_pi_element�Q�解析器解析��C��个处理指令时调用它�?br /> on_error�Q�解析器遇到错误时调用它�?br /> destroy�Q�用销毁Builder对象�?/p>
on_start_element和on_end_element�{�函数相当于Builder模式中的BuildPartX函数�?/p>
XML解析器相当于Director�Q�在前面我们已经写好了，不过它对解析出来的数据没有做��M��处理。现在我们对它做些修改，让它调用XmlBuilder的函数�?/p>
XML解析器对外提供下面几个函敎ͼ�

o 构造函数�?/p>
XmlParser* xml_parser_create(void);

o 为xmlParser讄��builder对象�?/p>
void xml_parser_set_builder(XmlParser* thiz, XmlBuilder* builder);

o 解析XML

void xml_parser_parse(XmlParser* thiz, const char* xml);

o 析构函数

void xml_parser_destroy(XmlParser* thiz);

在解析时�Q�解析到相应的tag�Q�就调用XmlBuilder相应的函敎ͼ�

o 解析到�v始tag时调用xml_builder_on_start_element

static void xml_parser_parse_start_tag(XmlParser* thiz)
{
enum _State
{
STAT_NAME,
STAT_ATTR,
STAT_END,
}state = STAT_NAME;

char* tag_name = NULL;
const char* start = thiz->read_ptr - 1;

for(; *thiz->read_ptr != '\0'; thiz->read_ptr++)
{
char c = *thiz->read_ptr;

switch(state)
{
case STAT_NAME:
{
if(isspace(c) || c == '>' || c == '/')
{
tag_name = (char*)xml_parser_strdup(thiz, start, thiz->read_ptr - start);
state = (c != '>' && c != '/') ? STAT_ATTR : STAT_END;
}
break;
}
case STAT_ATTR:
{
xml_parser_parse_attrs(thiz, '/');
state = STAT_END;

break;
}
default:break;
}

if(state == STAT_END)
{
break;
}
}

tag_name = thiz->buffer + (size_t)tag_name;
/*解析完成�Q�调用builder的函数xml_builder_on_start_element�?/
xml_builder_on_start_element(thiz->builder, tag_name, (const char**)thiz->attrs);

if(thiz->read_ptr[0] == '/')
{
/*如果tag�?/'�l�束�Q�调用builder的函数xml_builder_on_end_element�?/
xml_builder_on_end_element(thiz->builder, tag_name);
}

for(; *thiz->read_ptr != '>' && *thiz->read_ptr != '\0'; thiz->read_ptr++);

return;
}

o 解析到结束tag时调用xml_builder_on_end_element

static void xml_parser_parse_end_tag(XmlParser* thiz)
{
char* tag_name = NULL;
const char* start = thiz->read_ptr;
for(; *thiz->read_ptr != '\0'; thiz->read_ptr++)
{
if(*thiz->read_ptr == '>')
{
tag_name = thiz->buffer + xml_parser_strdup(thiz, start, thiz->read_ptr-start);
/*解析完成�Q�调用builder的函数xml_builder_on_end_element�?/
xml_builder_on_end_element(thiz->builder, tag_name);

break;
}
}

return;
}

o 解析到文本时调用xml_builder_on_text

static void xml_parser_parse_text(XmlParser* thiz)
{
const char* start = thiz->read_ptr - 1;
for(; *thiz->read_ptr != '\0'; thiz->read_ptr++)
{
char c = *thiz->read_ptr;

if(c == '<')
{
if(thiz->read_ptr > start)
{
/*解析完成�Q�调用builder的函数xml_builder_on_text�?/
xml_builder_on_text(thiz->builder, start, thiz->read_ptr-start);
}
thiz->read_ptr--;
return;
}
else if(c == '&')
{
xml_parser_parse_entity(thiz);
}
}

return;
}

o 解析到注释时调用xml_builder_on_comment

static void xml_parser_parse_comment(XmlParser* thiz)
{
enum _State
{
STAT_COMMENT,
STAT_MINUS1,
STAT_MINUS2,
}state = STAT_COMMENT;

const char* start = ++thiz->read_ptr;
for(; *thiz->read_ptr != '\0'; thiz->read_ptr++)
{
char c = *thiz->read_ptr;

switch(state)
{
case STAT_COMMENT:
{
if(c == '-')
{
state = STAT_MINUS1;
}
break;
}
case STAT_MINUS1:
{
if(c == '-')
{
state = STAT_MINUS2;
}
else
{
state = STAT_COMMENT;
}
break;
}
case STAT_MINUS2:
{
if(c == '>')
{
/*解析完成�Q�调用builder的函数xml_builder_on_comment�?/
xml_builder_on_comment(thiz->builder, start, thiz->read_ptr-start-2);
return;
}
}
default:break;
}
}

return;
}

o 解析到处理指令时调用xml_builder_on_pi_element

static void xml_parser_parse_pi(XmlParser* thiz)
{
enum _State
{
STAT_NAME,
STAT_ATTR,
STAT_END
}state = STAT_NAME;

char* tag_name = NULL;
const char* start = thiz->read_ptr;

for(; *thiz->read_ptr != '\0'; thiz->read_ptr++)
{
char c = *thiz->read_ptr;

switch(state)
{
case STAT_NAME:
{
if(isspace(c) || c == '>')
{
tag_name = (char*)xml_parser_strdup(thiz, start, thiz->read_ptr - start);
state = c != '>' ? STAT_ATTR : STAT_END;
}

break;
}
case STAT_ATTR:
{
xml_parser_parse_attrs(thiz, '?');
state = STAT_END;
break;
}
default:break;
}

if(state == STAT_END)
{
break;
}
}

tag_name = thiz->buffer + (size_t)tag_name;
/*解析完成�Q�调用builder的函数xml_builder_on_pi_element�?/
xml_builder_on_pi_element(thiz->builder, tag_name, (const char**)thiz->attrs);

for(; *thiz->read_ptr != '>' && *thiz->read_ptr != '\0'; thiz->read_ptr++);

return;
}

从上面的代码可以看出�Q�XmlParser在适当的时候调用了XmlBuilder的接口函敎ͼ�至于XmlBuilder在这些函数里做什么，要看具体的Builder实现了�?/p>
先看一个最��单的XmlBuilder实现�Q�它只是在屏�q�上打印��Z��递给它的数据�Q?/p>
o 创徏函数

XmlBuilder* xml_builder_dump_create(FILE* fp)
{
XmlBuilder* thiz = (XmlBuilder*)calloc(1, sizeof(XmlBuilder));

if(thiz != NULL)
{
PrivInfo* priv = (PrivInfo*)thiz->priv;

thiz->on_start_element = xml_builder_dump_on_start_element;
thiz->on_end_element = xml_builder_dump_on_end_element;
thiz->on_text = xml_builder_dump_on_text;
thiz->on_comment = xml_builder_dump_on_comment;
thiz->on_pi_element = xml_builder_dump_on_pi_element;
thiz->on_error = xml_builder_dump_on_error;
thiz->destroy = xml_builder_dump_destroy;

priv->fp = fp != NULL ? fp : stdout;
}

return thiz;
}

和其它接口的创徏函数一��P��它只是把接口要求的函数指针指到具体的实现函数上�?/p>
o 实现 on_start_element

static void xml_builder_dump_on_start_element(XmlBuilder* thiz, const char* tag, const char** attrs)
{
int i = 0;
PrivInfo* priv = (PrivInfo*)thiz->priv;
fprintf(priv->fp, "<%s", tag);

for(i = 0; attrs != NULL && attrs[i] != NULL && attrs[i + 1] != NULL; i += 2)
{
fprintf(priv->fp, " %s=\"%s\"", attrs[i], attrs[i + 1]);
}
fprintf(priv->fp, ">");

return;
}

o 实现on_end_element

static void xml_builder_dump_on_end_element(XmlBuilder* thiz, const char* tag)
{
PrivInfo* priv = (PrivInfo*)thiz->priv;
fprintf(priv->fp, "\n", tag);

return;
}

o 实现on_text

static void xml_builder_dump_on_text(XmlBuilder* thiz, const char* text, size_t length)
{
PrivInfo* priv = (PrivInfo*)thiz->priv;
fwrite(text, length, 1, priv->fp);

return;
}

o 实现on_comment

static void xml_builder_dump_on_comment(XmlBuilder* thiz, const char* text, size_t length)
{
PrivInfo* priv = (PrivInfo*)thiz->priv;
fprintf(priv->fp, "\n");

return;
}

o 实现on_pi_element

static void xml_builder_dump_on_pi_element(XmlBuilder* thiz, const char* tag, const char** attrs)
{
int i = 0;
PrivInfo* priv = (PrivInfo*)thiz->priv;
fprintf(priv->fp, "fp, " %s=\"%s\"", attrs[i], attrs[i + 1]);
}
fprintf(priv->fp, "?>\n");

return;
}

o 实现on_error

static void xml_builder_dump_on_error(XmlBuilder* thiz, int line, int row, const char* message)
{
fprintf(stderr, "(%d,%d) %s\n", line, row, message);

return;
}

上面的XmlBuilder实现��单，而且有一定的实用价��|��我一般都会先写这样一个Builder。它不但对于调试�E�序有不��的帮助�Q�而且只要�E�做修改�Q�就可以把它改进成一个美化数据格式的��工��P��不管原始数据的格�?当然要合�W�相应的语法规则)有多乱，你都能以一�U�比较好看的方式打印出来�?/p>
下面我们再看一个比较复杂的XmlBuilder的实玎ͼ�它根据接收的数据构徏一��XML树�?/p>
o 创徏函数

XmlBuilder* xml_builder_tree_create(void)
{
XmlBuilder* thiz = (XmlBuilder*)calloc(1, sizeof(XmlBuilder));

if(thiz != NULL)
{
PrivInfo* priv = (PrivInfo*)thiz->priv;

thiz->on_start_element = xml_builder_tree_on_start_element;
thiz->on_end_element = xml_builder_tree_on_end_element;
thiz->on_text = xml_builder_tree_on_text;
thiz->on_comment = xml_builder_tree_on_comment;
thiz->on_pi_element = xml_builder_tree_on_pi_element;
thiz->on_error = xml_builder_tree_on_error;
thiz->destroy = xml_builder_tree_destroy;

priv->root = xml_node_create_normal("__root__", NULL);
priv->current = priv->root;
}

return thiz;
}

和其它接口的创徏函数一��P��它只是把接口要求的函数指针指到具体的实现函数上。这里还创徏了一个根�l�点__root__�Q�以保证整棵树只有一个根�l�点�?/p>
o 实现 on_start_element

static void xml_builder_tree_on_start_element(XmlBuilder* thiz, const char* tag, const char** attrs)
{
XmlNode* new_node = NULL;
PrivInfo* priv = (PrivInfo*)thiz->priv;

new_node = xml_node_create_normal(tag, attrs);
xml_node_append_child(priv->current, new_node);
priv->current = new_node;

return;
}

�q�里创徏了一个新的结点，�q�追加�ؓpriv->current的子�l�点�Q�然后让priv->current指向新的�l�点�?/p>
o 实现 on_end_element

static void xml_builder_tree_on_end_element(XmlBuilder* thiz, const char* tag)
{
PrivInfo* priv = (PrivInfo*)thiz->priv;
priv->current = priv->current->parent;
assert(priv->current != NULL);

return;
}

�q�里只是让priv->current指向它的父结炏V�?/p>
o 实现 on_text

static void xml_builder_tree_on_text(XmlBuilder* thiz, const char* text, size_t length)
{
XmlNode* new_node = NULL;
PrivInfo* priv = (PrivInfo*)thiz->priv;

new_node = xml_node_create_text(text);
xml_node_append_child(priv->current, new_node);

return;
}

�q�里创徏一个文本结点， �q�追加�ؓpriv->current的子�l�点�?/p>
o 实现 on_comment

static void xml_builder_tree_on_comment(XmlBuilder* thiz, const char* text, size_t length)
{
XmlNode* new_node = NULL;
PrivInfo* priv = (PrivInfo*)thiz->priv;

new_node = xml_node_create_comment(text);
xml_node_append_child(priv->current, new_node);

return;
}

�q�里创徏一个注释结点， �q�追加�ؓpriv->current的子�l�点�?/p>
o 实现 on_pi_element

static void xml_builder_tree_on_pi_element(XmlBuilder* thiz, const char* tag, const char** attrs)
{
XmlNode* new_node = NULL;
PrivInfo* priv = (PrivInfo*)thiz->priv;

new_node = xml_node_create_pi(tag, attrs);
xml_node_append_child(priv->current, new_node);

return;
}

�q�里创徏一个处理指令结点， �q�追加�ؓpriv->current的子�l�点�?/p>
o 实现on_error

static void xml_builder_tree_on_error(XmlBuilder* thiz, int line, int row, const char* message)
{
fprintf(stderr, "(%d,%d) %s\n", line, row, message);

return;
}

下面我们再看XmlNode的数据结构和主要函数�Q?/p>
o 数据�l�构

typedef struct _XmlNode
{
XmlNodeType type;
union
{
char* text;
char* comment;
XmlNodePi pi;
XmlNodeNormal normal;
}u;
struct _XmlNode* parent;
struct _XmlNode* children;
struct _XmlNode* sibling;
}XmlNode;

type军_��了结点的�c�d��Q�可以是处理指��o(XML_NODE_PI)、文�?XML_NODE_TEXT)、注�?XML_NODE_COMMENT)或普通TAG(XML_NODE_NORMAL)�?/p>
联合体用于存攑օ�体结点信息�?/p>
parent指向父结炏V�?/p>
children指向�W�一个子�l�点�?/p>
sibling指向下一个兄弟结炏V�?/p>
o 创徏普通TAG�l�点

XmlNode* xml_node_create_normal(const char* name, const char** attrs)
{
XmlNode* node = NULL;
return_val_if_fail(name != NULL, NULL);

if((node = calloc(1, sizeof(XmlNode))) != NULL)
{
int i = 0;
node->type = XML_NODE_NORMAL;
node->u.normal.name = strdup(name);

if(attrs != NULL)
{
for(i = 0; attrs[i] != NULL && attrs[i+1] != NULL; i += 2)
{
xml_node_append_attr(node, attrs[i], attrs[i+1]);
}
}
}

return node;
}

o 创徏处理指��o�l�点

XmlNode* xml_node_create_pi(const char* name, const char** attrs)
{
XmlNode* node = NULL;
return_val_if_fail(name != NULL, NULL);

if((node = calloc(1, sizeof(XmlNode))) != NULL)
{
int i = 0;
node->type = XML_NODE_PI;
node->u.pi.name = strdup(name);
if(attrs != NULL)
{
for(i = 0; attrs[i] != NULL && attrs[i+1] != NULL; i += 2)
{
xml_node_append_attr(node, attrs[i], attrs[i+1]);
}
}
}

return node;
}

o 创徏文本�l�点

XmlNode* xml_node_create_text(const char* text)
{
XmlNode* node = NULL;
return_val_if_fail(text != NULL, NULL);

if((node = calloc(1, sizeof(XmlNode))) != NULL)
{
node->type = XML_NODE_TEXT;
node->u.text = strdup(text);
}

return node;
}

o 创徏注释�l�点

XmlNode* xml_node_create_comment(const char* comment)
{
XmlNode* node = NULL;
return_val_if_fail(comment != NULL, NULL);

if((node = calloc(1, sizeof(XmlNode))) != NULL)
{
node->type = XML_NODE_COMMENT;
node->u.comment = strdup(comment);
}

return node;
}

o �q�加一个兄弟结�?/p>
XmlNode* xml_node_append_sibling(XmlNode* node, XmlNode* sibling)
{
return_val_if_fail(node != NULL && sibling != NULL, NULL);

if(node->sibling == NULL)
{
/*没有兄弟�l�点�Q�让兄弟�l�点指向sibling */
node->sibling = sibling;
}
else
{
/*否则�Q�把sibling�q�加为最后一个兄弟结�?/
XmlNode* iter = node->sibling;
while(iter->sibling != NULL) iter = iter->sibling;
iter->sibling = sibling;
}
/*让兄弟结点的父结�Ҏ��向自��q��父结�?/

sibling->parent = node->parent;

return sibling;
}

o �q�加一个子�l�点

XmlNode* xml_node_append_child(XmlNode* node, XmlNode* child)
{
return_val_if_fail(node != NULL && child != NULL, NULL);

if(node->children == NULL)
{
/*没有子结点，让子�l�点指向child */
node->children = child;
}
else
{
/*否则�Q�把child �q�加为最后一个子�l�点*/
XmlNode* iter = node->children;
while(iter->sibling != NULL) iter = iter->sibling;
iter->sibling = child;
}
/*让子�l�点的父�l�点指向自己*/

child->parent = node;

return child;
}

回头再看一下XmlParser�Q�XmlBuilder及几个具体的XmlBuilder的实玎ͼ�我们可以看到�Q�它们的实现都非常简单，其实�q�完全得益于Builder模式的设计方法。它利用分而治之的思想�Q�把数据的解析和数据的处理分开�Q�降低了实现的复杂度。其�ơ它利用了抽象的思想�Q�从而数据的解析只关心处理数据处理的接口�Q�而不兛_��的它的实玎ͼ�使得数据解析和数据处理可以独立变化�?/p>
分而治之和抽象是降低复杂度最有效的手�D�之一�Q�它们在Builder模式里得��C��很好的体现。初学者应该多�׃��旉��M��会�?br />

文章出处�Q?a >http://www.limodev.cn/blog
作者联�p�L��式：李先�?

矛_��@ 2009-07-10 19:03 发表评论

文本处理(一)

矛_��@ — Fri, 10 Jul 2009 10:57:00 GMT

文章出处�Q?a >http://www.limodev.cn/blog
作者联�p�L��式：李先�?

�pȝ��E�序员成长计�?文本处理(一)

状态机(4)

XML解析�?/p>
XML�Q�Extensible Markup Language�Q�即可扩展标记语�a��Q�也是一�U�常用的数据文�g格式。相对于INI来说�Q�它要复杂得多，INI只能保存�U�性结构的数据�Q�而XML可以保存树�Ş�l�构的数据。先看下面的例子�Q?/p>

all files and folders

�W�一行称为处理指�?PI)�Q�是�l�解析器用的。这里告诉解析器�Q�当前的XML文�g遵��@XML 1.0规范�Q�文件内容用UTF-8�~�码�?/p>
�W�二行是一个�v始TAG�Q�TAG的名�U�Cؓmime-type。它有两个属性，�W�一个属性的名称为xmlns�Q��gؓ http://www.freedesktop.org/standards/shared-mime-info。第二个属性的名称为type�Q��gؓ all/all�?/p>
�W�三行是一个注释�?/p>
�W�四行包括一个�v始TAG�Q�一�D�|��本和�l�束TAG�?/p>
�W�五行是一个结束TAG�?/p>
XML本��n的格式不是本文的重点�Q�我们不详细讨论了。这里的重点是如何用状态机解析格式复杂的数据�?/p>
按照前面的方法，先把数据��d��C��个缓冲区中，让一个指针指向缓冲区的头部，然后�U�d��指针�Q�直到指向缓冲区的尾部。在�q�个�q�程中，指针可能指向�Q��v始TAG�Q�结束TAG�Q�注释，处理指��o和文本。由此我们定义出状态机的主要状态：

1. 起始TAG状�?br /> 2. �l�束TAG状�?br /> 3. 注释状�?br /> 4. 处理指��o状�?br /> 5. 文本状�?/p>
�׃��起始TAG、结束TAG、注释和处理指��o都在字符‘<’�?#8216;>’之间�Q�所以当��d��字符‘<’�Ӟ��我们�q�无法知道当前的状态，��Z��便于处理�Q�我们引入一个中间状态，�U�Cؓ“��于号之�?#8221;的状态。在��d��字符‘<’�?#8216;!’之后�Q�还要读入两�?#8216;-’�Q�才能确定进入注释状态，��Z��便于处理�Q�再引入两个中间状�?#8220;注释前一”�?#8220;注释前二”。再引入一�?#8220;�I?#8221;状态，表示不在上述��M��状态中�?/p>
状态�{换函敎ͼ�
1. �?#8220;�I?#8221;状态下�Q�读入字�W?#8216;<’�Q�进�?#8220;��于号之�?#8221;状态�?br /> 2. �?#8220;�I?#8221;状态下�Q�读入非‘<’非空白的字符�Q�进�?#8220;文本”状态�?br /> 3. �?#8220;��于号之�?#8221;状态下�Q�读入字�W?#8216;�Q?#8217;�Q�进�?#8220;注释前一” 状态�?br /> 4. �?#8220;��于号之�?#8221;状态下�Q�读入字�W?#8216;?’�Q�进�?#8220;处理指��o”状态�?br /> 5. �?#8220;��于号之�?#8221;状态下�Q�读入字�W?#8216;/’�Q�进�?#8220;�l�束TAG”状态�?br /> 6. �?#8220;��于号之�?#8221;状态下�Q�读入有效的ID字符�Q�进�?#8220;起始TAG”状态�?br /> 7. �?#8220;注释前一” 状态下�Q�读入字�W?#8216;-’�Q?�q�入“注释前二” 状态�?br /> 8. �?#8220;注释前二” 状态下�Q�读入字�W?#8216;-’�Q?�q�入“注释” 状态�?br /> 9. �?“起始TAG” 状态�?#8220;�l�束TAG” 状�?�?#8220;文本” 状态�?#8220;注释”状�?�?#8220;处理指��o”状态结束后�Q�重新回�?#8220;�I?#8221;状态下�?/p>
�q�个状态机的图形表�C�如下：

下面我们来看看代码实玎ͼ�

void xml_parser_parse(XmlParser* thiz, const char* xml)
{
/*定义状态的枚�D�?/
enum _State
{
STAT_NONE,
STAT_AFTER_LT,
STAT_START_TAG,
STAT_END_TAG,
STAT_TEXT,
STAT_PRE_COMMENT1,
STAT_PRE_COMMENT2,
STAT_COMMENT,
STAT_PROCESS_INSTRUCTION,
}state = STAT_NONE;

thiz->read_ptr = xml;
/*指针从头�U�d��到尾*/
for(; *thiz->read_ptr != '\0'; thiz->read_ptr++)
{
char c = thiz->read_ptr[0];

switch(state)
{
case STAT_NONE:
{
if(c == '<')
{
/*�?#8220;�I?#8221;状态下�Q�读入字�W?#8216;<’�Q�进�?#8220;��于号之�?#8221;状态�?/
xml_parser_reset_buffer(thiz);
state = STAT_AFTER_LT;
}
else if(!isspace(c))
{
/*�?#8220;�I?#8221;状态下�Q�读入非‘<’非空白的字符�Q�进�?#8220;文本”状态�?/
state = STAT_TEXT;
}
break;
}
case STAT_AFTER_LT:
{
if(c == '?')
{
/*�?#8220;��于号之�?#8221;状态下�Q�读入字�W?#8216;?’�Q�进�?#8220;处理指��o”状态�?/
state = STAT_PROCESS_INSTRUCTION;
}
else if(c == '/')
{
/*�?#8220;��于号之�?#8221;状态下�Q�读入字�W?#8216;/’�Q�进�?#8220;�l�束TAG”状态�?/
state = STAT_END_TAG;
}
else if(c == '!')
{
/*�?#8220;��于号之�?#8221;状态下�Q�读入字�W?#8216;�Q?#8217;�Q�进�?#8220;注释前一” 状�?/
state = STAT_PRE_COMMENT1;
}
else if(isalpha(c) || c == '_')
{
/*�?#8220;��于号之�?#8221;状态下�Q�读入有效的ID字符�Q�进�?#8220;起始TAG”状态�?/
state = STAT_START_TAG;
}
else
{
}
break;
}
case STAT_START_TAG:
{
/*�q�入子状�?/
xml_parser_parse_start_tag(thiz);
state = STAT_NONE;
break;
}
case STAT_END_TAG:
{
/*�q�入子状�?/
xml_parser_parse_end_tag(thiz);
state = STAT_NONE;
break;
}
case STAT_PROCESS_INSTRUCTION:
{
/*�q�入子状�?/
xml_parser_parse_pi(thiz);
state = STAT_NONE;
break;
}
case STAT_TEXT:
{
/*�q�入子状�?/
xml_parser_parse_text(thiz);
state = STAT_NONE;
break;
}
case STAT_PRE_COMMENT1:
{
if(c == '-')
{
/*�?#8220;注释前一” 状态下�Q�读入字�W?#8216;-’�Q?�q�入“注释前二” 状态�?/
state = STAT_PRE_COMMENT2;
}
else
{
}
break;
}
case STAT_PRE_COMMENT2:
{
if(c == '-')
{
/*�?#8220;注释前二” 状态下�Q�读入字�W?#8216;-’�Q?�q�入“注释” 状态�?/
state = STAT_COMMENT;
}
else
{
}
}
case STAT_COMMENT:
{
/*�q�入子状�?/
xml_parser_parse_comment(thiz);
state = STAT_NONE;
break;
}
default:break;
}

if(*thiz->read_ptr == '\0')
{
break;
}
}

return;
}

解析�q�没有在此结束，原因是像“起始TAG”状态和“处理指��o”状态等�Q�它们不是原子的�Q�内部还包含一些子状态，如TAG名称�Q�属性名和属性值等�Q�它们需要进一步分解。在考虑子状态时�Q�我们可以忘掉它所处的上下文，只考虑子状态本�w�，�q�样问题会得到简化。下面看一下�v始TAG的状态机�?/p>
假设我们要解析下面这样一个�v始TAG�Q?br />

我们应该怎样��d��呢？�q�是按前面的�Ҏ��Q�让一个指针指向缓冲区的头部，然后�U�d��指针�Q�直到指向缓冲区的尾部。在�q�个�q�程中，指针可能指向�Q�TAG名称�Q�属性名和属性倹{��由此我们可以定义出状态机的主要状态：

1. “TAG名称”状�?br /> 2. “属性名”状�?br /> 3. “属性�?#8221;状�?/p>
��Z��方便处理�Q�再引两个中间状态，“属性名之前”状态和“属性��g��?#8221;状态�?/p>
状态�{换函敎ͼ�

初始状态�ؓ“TAG名称”状�?br /> 1. �?#8220;TAG名称”状态下�Q�读入空白字�W�，�q�入“属性名之前”状态�?br /> 2. �?#8220;TAG名称”状态下�Q�读入字�W?#8216;/’�?#8216;>’�Q�进�?#8220;�l�束”状态�?br /> 3. �?#8220;属性名之前”状态下�Q�读入其它非�I�白字符�Q�进�?#8220;属性名”状态�?br /> 4. �?#8220;属性名”状态下�Q�读入字�W?#8216;=’�Q�进�?#8220;属性��g��?#8221;状态�?br /> 5. �?#8220;属性��g��?#8221;状态下�Q�读入字�W?#8216;“’�Q�进�?#8220;属性�?#8221;状态�?br /> 6. �?#8220;属性�?#8221;状态下�Q�读入字�W?#8216;”’�Q�成功解析属性名和属性��|��回到“属性名之前”状态�?br /> 7. �?#8220;属性名之前”状态下�Q�读入字�W?#8216;/’�?#8216;>’�Q�进�?#8220;�l�束”状态�?/p>
�׃��处理指��o(PI)里也包含了属性状态，��Z��重用属性解析的功能�Q�我们把属性的状态再提取��Z��个子状态。这��P��“起始TAG”状态的囑�Ş表示如下�Q?br />

下面我们看代码实玎ͼ�

static void xml_parser_parse_attrs(XmlParser* thiz, char end_char)
{
int i = 0;
enum _State
{
STAT_PRE_KEY,
STAT_KEY,
STAT_PRE_VALUE,
STAT_VALUE,
STAT_END,
}state = STAT_PRE_KEY;

char value_end = '\"';
const char* start = thiz->read_ptr;

thiz->attrs_nr = 0;
for(; *thiz->read_ptr != '\0' && thiz->attrs_nr < MAX_ATTR_NR; thiz->read_ptr++)
{
char c = *thiz->read_ptr;

switch(state)
{
case STAT_PRE_KEY:
{
if(c == end_char || c == '>')
{
/*�?#8220;属性名之前”状态下�Q�读入字�W?#8216;/’�?#8216;>’�Q�进�?#8220;�l�束”状态�?/
state = STAT_END;
}
else if(!isspace(c))
{
/*�?#8220;属性名之前”状态下�Q�读入其它非�I�白字符�Q�进�?#8220;属性名”状态�?/
state = STAT_KEY;
start = thiz->read_ptr;
}
}
case STAT_KEY:
{
if(c == '=')
{
/*�?#8220;属性名”状态下�Q�读入字�W?#8216;=’�Q�进�?#8220;属性��g��?#8221;状态�?/
thiz->attrs[thiz->attrs_nr++] = (char*)xml_parser_strdup(thiz, start, thiz->read_ptr - start);
state = STAT_PRE_VALUE;
}

break;
}
case STAT_PRE_VALUE:
{
/*�?#8220;属性��g��?#8221;状态下�Q�读入字�W?#8216;“’�Q�进�?#8220;属性�?#8221;状态�?/
if(c == '\"' || c == '\'')
{
state = STAT_VALUE;
value_end = c;
start = thiz->read_ptr + 1;
}
break;
}
case STAT_VALUE:
{
/*�?#8220;属性�?#8221;状态下�Q�读入字�W?#8216;”’�Q�成功解析属性名和属性��|��回到“属性名之前”状态�?/
if(c == value_end)
{
thiz->attrs[thiz->attrs_nr++] = (char*)xml_parser_strdup(thiz, start, thiz->read_ptr - start);
state = STAT_PRE_KEY;
}
}
default:break;
}

if(state == STAT_END)
{
break;
}
}

for(i = 0; i < thiz->attrs_nr; i++)
{
thiz->attrs[i] = thiz->buffer + (size_t)(thiz->attrs[i]);
}
thiz->attrs[thiz->attrs_nr] = NULL;

return;
}

记得在XML里，单引号和双引号都可以用来界定属性��|��所以上面对此做了特�D�处理�?/p>
static void xml_parser_parse_start_tag(XmlParser* thiz)
{
enum _State
{
STAT_NAME,
STAT_ATTR,
STAT_END,
}state = STAT_NAME;

char* tag_name = NULL;
const char* start = thiz->read_ptr - 1;

for(; *thiz->read_ptr != '\0'; thiz->read_ptr++)
{
char c = *thiz->read_ptr;

switch(state)
{
case STAT_NAME:
{
/*�?#8220;TAG名称”状态下�Q�读入空白字�W�，属性子状态�?/
/*�?#8220;TAG名称”状态下�Q�读入字�W?#8216;/’�?#8216;>’�Q�进�?#8220;�l�束”状态�?/
if(isspace(c) || c == '>' || c == '/')
{
state = (c != '>' && c != '/') ? STAT_ATTR : STAT_END;
}
break;
}
case STAT_ATTR:
{
/*�q�入“属�?#8221;子状�?/
xml_parser_parse_attrs(thiz, '/');
state = STAT_END;

break;
}
default:break;
}

if(state == STAT_END)
{
break;
}
}

for(; *thiz->read_ptr != '>' && *thiz->read_ptr != '\0'; thiz->read_ptr++);

return;
}

处理指��o的解析和起始TAG的解析基本上是一��L��Q�这里只是看一下代码：

static void xml_parser_parse_pi(XmlParser* thiz)
{
enum _State
{
STAT_NAME,
STAT_ATTR,
STAT_END
}state = STAT_NAME;

char* tag_name = NULL;
const char* start = thiz->read_ptr;

for(; *thiz->read_ptr != '\0'; thiz->read_ptr++)
{
char c = *thiz->read_ptr;

switch(state)
{
case STAT_NAME:
{
/*�?#8220;TAG名称”状态下�Q�读入空白字�W�，属性子状态�?/
/*�?#8220;TAG名称”状态下�Q?#8216;>’�Q�进�?#8220;�l�束”状态�?/
if(isspace(c) || c == '>')
{
state = c != '>' ? STAT_ATTR : STAT_END;
}

break;
}
case STAT_ATTR:
{
/*�q�入“属�?#8221;子状�?/
xml_parser_parse_attrs(thiz, '?');
state = STAT_END;
break;
}
default:break;
}

if(state == STAT_END)
{
break;
}
}

tag_name = thiz->buffer + (size_t)tag_name;

for(; *thiz->read_ptr != '>' && *thiz->read_ptr != '\0'; thiz->read_ptr++);

return;
}

注释�Q�结束TAG和文本的解析非常��单，�q�里�l�合代码看看��p��了：

“注释”子状态的处理�Q?/p>
static void xml_parser_parse_comment(XmlParser* thiz)
{
enum _State
{
STAT_COMMENT,
STAT_MINUS1,
STAT_MINUS2,
}state = STAT_COMMENT;

const char* start = ++thiz->read_ptr;
for(; *thiz->read_ptr != '\0'; thiz->read_ptr++)
{
char c = *thiz->read_ptr;

switch(state)
{
case STAT_COMMENT:
{
/*�?#8220;注释”状态下�Q�读�?#8216;-’�Q�进�?#8220;减号一”状态�?/
if(c == '-')
{
state = STAT_MINUS1;
}
break;
}
case STAT_MINUS1:
{
if(c == '-')
{
/*�?#8220;减号一”状态下�Q�读�?#8216;-’�Q�进�?#8220;减号�?#8221;状态�?/
state = STAT_MINUS2;
}
else
{
state = STAT_COMMENT;
}
break;
}
case STAT_MINUS2:
{
if(c == '>')
{
/*�?#8220;减号�?#8221;状态下�Q�读�?#8216;>’�Q�结束解析�?/
return;
}
else
{
state = STAT_COMMENT;
}
}
default:break;
}
}

return;
}

“�l�束TAG”子状态的处理�Q?/p>
static void xml_parser_parse_end_tag(XmlParser* thiz)
{
char* tag_name = NULL;
const char* start = thiz->read_ptr;
for(; *thiz->read_ptr != '\0'; thiz->read_ptr++)
{
/*��d��‘>’�Q�结束解析�?/
if(*thiz->read_ptr == '>')
{
break;
}
}

return;
}

“文本”子状态的处理�Q?/p>
static void xml_parser_parse_text(XmlParser* thiz)
{
const char* start = thiz->read_ptr - 1;
for(; *thiz->read_ptr != '\0'; thiz->read_ptr++)
{
char c = *thiz->read_ptr;
/*��d��‘>’�Q�结束解析�?/
if(c == '<')
{
if(thiz->read_ptr > start)
{
}
thiz->read_ptr--;
return;
}
else if(c == '&')
{
/*��d��‘&’�Q�进入实�?entity)解析子状态�?/
xml_parser_parse_entity(thiz);
}
}

return;
}

实体(entity)子状态比较简单，�q�里不做�q�一步分析了�Q�留�l�读者做�l�习�?/p>

矛_��@ 2009-07-10 18:57 发表评论

tomcat 在eclipse中的部��v

矛_��@ — Wed, 17 Jun 2009 10:07:00 GMT

Tomcat源码学习�Q�一�Q?/a>

转自:http://carllgc.blog.ccidnet.com/blog-htm-do-showone-uid-4092-type-blog-itemid-263093.html

作�ؓ一�?span>Java�E�序员，如果您没有接触过开源��Y件、项目或框架的话�Q�恐怕有些不可思议。蘪轰烈烈的开源运动�v源于Linux操作�pȝ��Q?/span>Apache基金会在其中扮演了中��砥��q��角色�Q�业界巨�?/span>SUN�Q?/span>IBM�Q?/span> BEA �?/span>Oracle�{�公司的�U�极参与�Q��得声势浩大的开源运动成��Y件开发领域势不可挡的力量�?/span>2001�q?/span>11月，IBM�?/span>Apache基金会捐献出Visual Age for Java�Q�这个看似穷途末路的产品�l�众多高手的攚w��，演变��煌一时的Eclipse�Q�直接击败了不开源的JBuilder�Q�让做编译器起家�?/span>Borland公司几乎兛_��大吉�?/span>Eclipse�q�个产品如此�l�典�Q�以至于微��Y�?/span>Visual Studio都得向它学习。在Apache Harmony的围�q�堵截下�Q?/span>Java的发明�?/span>Sun公司一看势头不妙，�?/span>2006�q�宣�?/span>Java开源，随后又公开了其旗舰�U��?/span>Solaris的源代码。今�q?/span>1月，开源的��d��头、冷酯��U�的微��Y也不得不�?/span>MS-RL协议下公开.Net的源代码。但是，在这如火如荼的开源运动中�Q�我们中国的�E�序员又有多��A献呢�Q�我们开创了哪些框架、项目和产品�Q��ؓ开源界�ȝ��加瓦呢？以笔者短��的目光看来�Q�我们对开源界贡献的东西恐怕很��，能够与国外经典开源项目一较高下的�Q�少之又��矣�Q?/span>

作�ؓ一名中国的�E�序员，�׃��能没有遗憑֐��Q��ؓ什么经典的Apache Web Server不是中国人写的；��Z��?/span>Linus Torvalds在大学时代就写出Linux�q�振臂一��|��应者云集；��Z��?/span>JBoss能与巨无霸式�?/span>Websphere相抗衡；��Z��?/span>MySQL能在Oracle�?/span>SQL Server的夹��M��发展�q�壮�?/span>…… �Q�如此等�{�问题，在遗憾之余，我想我们应该��q��旉��好好思考一下，中国的��Y件��业怎么了，中国的程序员又怎么啦？

在笔者看来，我们的程序员对开源的理解是相当狭隘的。国学大师王国维曾说�q�，古往今来成大学问大事业者要�l�历三种境界�Q?#8220;昨夜襉K��凋碧树，独上高楼�Q�望��天涯�\”�Q�这是第一重境界，�q�h��也；“��带渐宽�l�不悔，��Z��消得人憔�?#8221;�Q�苦苦求索之境界也；�W�三重境界�ؓ“众里��M��千百度，蓦然回首�Q�那人却在灯火阑珊处”�Q�经历多��次的失败和挫折后，�l�于参透真谛，领悟真理。我觉得开源也有三重境界：

首先�Q�我们要敞开心胸�Q�拥抱开源（Open to Open Source)。这重境界我们大安��能做刎ͼ�拿来��M��嘛，谁�h不会。当我们的项目需要数据库�Ӟ��去下蝲一个免费MySQL�Q�需要IDE�Ӟ��M��? Eclipse�Q�需要版本控制工��h��Q�就��M��载CVS�Q�需要写搜烦引擎�Ӟ��Lucene可能是我们的最爱；当我们开发J2EE Web应用�Ӟ��Struts/JSF加Hibernate/iBATIS再加上Spring或许成�ؓ我们的首选架构。但是，我们�l�大部分�E�序员都停留在这个层�ơ上�Q�大家下载之后，看看文��介绍�Q�安装、配�|��ƈ能运行，��׃��Z��事大吉，一切顺利。偶��遇��C��些问题，去Google一搜，�{�案立马可得�?

其次�Q�我们要深入开源，了解开源（Dig into Open Source)。要辑ֈ��q�个层次�Q�就有些隑ֺ�了。我们不但要知其�Ӟ��q�要知其所以然�?#8220;知其所以然”的最好办法就是下载源代码�Q�仔�l�研读，揣摩�q��会源�? 码的�_�义�Q�看看这些经�q�诸多高手修改的源代码究竟藏有什么玄机，我们能从其中学习到哪些设计思想及设计模式，能复用其中哪些源代码�Q��h家运用了哪些软�g��? 理思想把这些来自世界各地程序员的劳动汇集成一个��品，代码架构如何�Q��Y仉��|�管理又是怎样�q�行�?#8230;…�Q�等�{�等�{�，我们从源代码中学习的东西太多了。在�? ��L��代码�Ӟ��我们要多问自己几个�ؓ什么，�q�样��׃��收获更多�?

再次�Q�我们要融入开源，贡献开源（Get involved in Open Source)。当我们��d��理解该项目源代码后，我们应发挥一�?#8220;��Z�h为我�Q�我��Z�h�?#8221;的思想�Q�或�l�合您的实际需要，或结合您的新��x��Q�或针对Mail lists上的问题�Q�对该开源项目加以改�q�和创新�Q��ƈ把自��q��代码贡献出来�Q�让大家评估。当�Ӟ��如果您有好的��x��Q�您完全可以创徏自己的开源项目，Apache基金会中众多的开源项目不都是我们�q�大�E�序员一手创建的吗？但是�Q�在创徏新开源项目时�Q�切忌不要重新发明轮子�?

�W�者才疏学��，想以Apache Jakarta��目包中的核心项目Tomcat��Z��Q�希望通过阅读源码�Q�能从这个经兔R��目中学到更多的东西，为我们中国的开源事业�v到抛砖引玉的作用�?

下面我们��开始我们的Tomcat源码学习之旅�?

1. 下蝲Tomcat6.0的源代码

首先�Q�我们得下蝲Tomcat6.0的源代码。Tomcat源代码的版本控制工具不是CVS�Q�而是Subversion�Q�如果您的机器上没有安装Subversion�Q�请�?/span> http://subversion.tigris.org/servlets/ProjectDocumentList?folderID=91 下蝲�q�安装这个开源的版本控制工具。当�Ӟ��如果您想�?/span>Eclipse中直接导�?/span>Tomcat源代码，请从http://subclipse.tigris.org/update_1.0.x下蝲Subversion插�g�Q�即可导�?/span>Tomcat源代码。安装完成后�Q�请�?/span>MS-DOS�H�口中键�?/span>svn export help�Q�您��会看到�Q?/span>

C:\Documents and Settings\carlwu>svn help export

export: 产生一个无版本控制的目录树副本�?/span>

用法: 1�?/span>export [-r REV] URL[@PEGREV] [PATH]

2�?/span>export [-r REV] PATH1[@PEGREV] [PATH2]

1、从 URL 指定的仓库，导出一个干净的目录树�?/span> PATH。如果有指定

REV 的话�Q�内容即��版本的，否则��是 HEAD 版本。如�?/span> PATH

被省略的话，URL的最后部份会被用来当成本地的目录名称�?/span>

2、在工作副本中，从指定的 PATH1 导出一个干净的目录树�?/span> PATH2。如�?/span>

有指�?/span> REV 的话�Q�会从指定的版本导出�Q�否则从工作副本导出。如�?/span>

PATH2 被省略的话，PATH1 的最后部份会被用来当成本地的目录名称�?/span>

如果没有指定 REV 的话�Q�所有的本地修改都保留，但是未纳入版本控�?/span>

的文件不会被复制�?/span>

如果指定�?/span> PEGREV �Q�将从指定的版本本开始查找�?/span>

有效选项:。。。。。�?/span>

我们看到Subversion�l�我们提供了非常友好的帮助，�q�且是中文的�Q�看来中国程序员对这个开源项目有所贡献。接下来�Q�请�?/span>MS-DOS下键入：

svn export http://svn.apache.org/repos/asf/tomcat/tc6.0.x/tags/TOMCAT_6_0_0/ D:\carl_wu\tomcat\src\

�q�个命��o的意思是�?/span>Tomcat6.0的源代码�?/span>Subversion库中导入到本机的D:\carl_wu\tomcat\src\目录�Q�命令运行后�Q�您�E�等几分钟，��׃��看到Tomcat的源代码��利导入到目标目录。下面是源代码的目录机构�Q�从�q�个目录�l�构中，我们可以看出该项目的开发者��用的IDE�?/span>Eclipse�Q�因为我们看��C��熟悉�?/span>.project�?/span>.classpath文�g。如果您打算开发一�?/span>Stand alone�?/span>Java应用�E�序�Q�不妨借鉴一�?/span>Tomcat的目录结构，把脚本文件放�?/span>bin目录�Q�将xml�?/span>properties配置文�g攑֜�conf目录中，�?/span>Java源码文�g攑֜�java或�?/span>src目录中，资源文�g比如说图片文�Ӟ��ini文�g及其它的一些静态资源文件可以放�?/span>res目录�Q�测试源代码可以攑֜�test目录中。这是一个典型的Java应用�E�序的目录机构，�W�者以前曾接触��C��个来自美国的产品�Q�其源代码目录结构和Tomcat及其相像�?/span>

2. �~�译�q�运�?/span>

代码下蝲后，我们接下来就是要�~�译�q�运�?/span>Tomcat。一提编译，我们不禁会想到可��q��Ant。不错，Tomcat正是�?/span>Ant作�ؓ�~�译工具�Q�如果您�q�没有安装，请从http://ant.apache.org/bindownload.cgi 处下载�ƈ安装它。然后，请从Tomcat的源代码文�g扑ֈ�build.properties.default文�g�Q��ƈ��该文�g复制�?/span>build.properties�Q�然后打开build.properties�Q�找��C��面这行：

base.path=/usr/share/java

��它改�ؓ�Q?/span>

base.path= D:/carl_wu/tomcat/share

�?/span>Tomcat�~�译�q�程中，Ant会让我们下蝲一些必要的依赖��目�Q?/span>base.path目录��是用来保存�q�些��目文�g的，我们可以��这个属性指向一个已�l�存在的目录。修改完base.path后，我们回到MS-DOS�H�口�Q�切换到Tomcat源代码所在目录，然后�q�行ant download命��o�Q�如下图所�C�：

一分钟未到�Q?/span>Ant��告诉我们一个错误�ƈ提示我们�~�译��p�|�Q�具体错误信息如下：

downloadzip:

[get] Getting: http://sunsite.informatik.rwth-aachen.de/eclipse/downloads/drops/R-3.2-200606291905/eclipse-JDT-3.2.zip
[get] To: D:\carl_wu\tomcat\share\file.zip
[get] Error opening connection java.io.FileNotFoundException: http://sunsite.informatik.rwth-aachen.de:3080/eclipse/downloads/drops/R-3.2-200606291905/eclipse-JDT-3.2.zip

[get] Error opening connection java.io.FileNotFoundException: http://sunsite.informatik.rwth-aachen.de:3080/eclipse/downloads/drops/R-3.2-200606291905/eclipse-JDT-3.2.zip

[get] Error opening connection java.io.FileNotFoundException: http://sunsite.informatik.rwth-aachen.de:3080/eclipse/downloads/drops/R-3.2-200606291905/eclipse-JDT-3.2.zip

[get] Can't get http://sunsite.informatik.rwth-aachen.de/eclipse/downloads/drops/R-3.2-200606291905/eclipse-JDT-3.2.zip to D:\carl_wu\tomcat\share\file.zip

BUILD FAILED

D:\carl_wu\tomcat\src\build.xml:554: The following error occurred while executing this line:

D:\carl_wu\tomcat\src\build.xml:514: Can't get http://sunsite.informatik.rwth-aachen.de/eclipse/downloads/drops/R-3.2-200606291905/eclipse-JDT-3.2.zip to D:\carl_wu\tomcat\share\file.zip

Total time: 41 seconds

�q�个�~�译错误非常��单，��是找不�?/span>http://sunsite.informatik.rwth-aachen.de/eclipse/downloads/drops/R-3.2-200606291905/eclipse-JDT-3.2.zip 文�g。有人可能会惻I��Tomcat的编译和Eclipse�?/span>JDT有什么关�p�？其实不然�Q?/span>Tomcat是在Eclipse下开发的�Q�所以需�?/span>Eclipse�?/span>JDT�Q?/span>Java Development tooling�Q�插件来�~�译Tomat源代码。既然找不到�Q�我们只好自己动手，�?/span>Google一搜，马上发现�q�个文�g的有效下载地址为：http://mirror.calvin.edu/eclipse/downloads/drops/R-3.2-200606291905/eclipse-JDT-3.2.zip。我�?/span>打开刚才�?/span>build.properties文�g�Q�将�?/span>34行修改�ؓ�Q?/span>

jdt.loc= http://mirror.calvin.edu/eclipse/downloads/drops/R-3.2-200606291905/eclipse-JDT-3.2.zip

修改保存build.properties文�g后，重新开�?/span>ant download��d��。这�ơ我们等的时间较长，因�ؓeclipse-JDT-3.2.zip大约�?/span>19M�Q�下载需要一�D�|��间。我们可乘此��Z��L��杯茶弄点咖啡什么的�Q�等我们品茶回来�Q�发现敬业的蚂蚁Ant告诉我们�~�译成功�Q�虽然编译器�l�出几个警告。这时我们可发现刚才创徏�?/span>base.path目录�Q?/span>D:\carl_wu\tomcat\share�Q�中已经下蝲�?/span>6个依赖项目，它们都是Tomcat�~�译所必须的�?/span>

下面��开始真正的�~�译��d��了，请在MS-DOS�H�口内键�?/span>ant�q�回车，Ant��在2分钟内编�?/span>1000多个源文件�ƈ��?/span>Tomcat部��v�?/span>output目录。编译顺利完成后�Q�请打开Tomcat的源代码目录�Q�会发现多了一�?/span>output目录�Q�这�?/span>Ant的编译后的输出目录。请打开Tomcat源代码的output\build\bin子目录，双击startup.bat文�g�Q�我们即可成功启�?/span>Tomcat6.0�Q�此时我们的�~�译工作��q��利完成了�?/span>

3. 导入源代码到Eclipse

3.1 ��h��开Eclipse�Q�新��Z��?/span>Java��目�Q�然后点�?#8220;Next”按钮�Q�请选择“Create project from existing source”�Q?/span> �q�在Directory文本框内填入我们刚才下蝲�?/span>Tomcat源代码目录（i.e. D:\carl_wu\tomcat\src)�Q�然后点�?#8220;Next”直至�l�束�?/span>

3.2 我们��会看到Eclipse拒绝�~�译�Q�这是因�?/span>Eclipse找不到该��目指定的库文�g。请叛_��该项目，在弹��单中选择“Properties”à“Libraries”�Q�然后删除两个以TOMCAT_LIBS开头的两个库文�Ӟ��只保留一�?/span>JRE库文�Ӟ��然后点击“OK”按钮�Q�这�?/span>Eclipse开始编�?/span>Tomcat源代码，但是发现一堆错误，�q�是因�ؓ我们没有��目��d��~�译所必须�?/span>Jar包�?/span>

3.3 准备�?/span>Tomcat��目所必须�?/span>jar文�g�Q�其实，刚才我们�q�行ant download��d��Ӟ��已经下蝲�q�这�?/span>jar文�g包�?/span>

ant.jar �Q�请�?/span>ant安装目录�?/span>lib子目录中拯��Q?/span>

commons-collections-3.1.jar �Q�从刚才Ant下蝲�?/span>commons-collections-3.1子目录中拯��Q?/span>

commons-dbcp-1.2.1.jar�Q�从刚才Ant下蝲�?/span>commons-dbcp-1.2.1子目录中拯��Q?/span>

commons-logging-1.1.jar�Q�如果您本机没有�q�个jar包，请从http://commons.apache.org/downloads/download_logging.cgi处下载）

commons-pool-1.2.jar�Q�从刚才Ant下蝲�?/span>commons-pool-1.2子目录中拯��Q?/span>

org.eclipse.jdt.core_3.2.0.v_671.jar�Q�从刚才Ant下蝲�?/span>eclipse\plugins子目录中拯��Q?/span>

3.4 当我们准备好�q�些jar文�g后，��这些文件拷贝到某一目录�Q�比如说D:\carl_wu\tomcat\tomcat_lib目录�Q�，然后�?/span>Eclipse中新��Z��?/span>User Libraries�Q�我们将�q�个新徏�?/span>User Libraries命名�?/span>TOMCAT_LIBS�Q��ƈ把这些文件加�?/span>TOMCAT_LIBS。然后将我们新徏�?/span>TOMCAT_LIBS��d��?/span>Tomcat6��目。另外，别忘了把JUnit库也加到Tomcat6��目。这�?/span>Eclipse开始重新编译，�~�译�q�程��利通过�Q�所有错误均消失�Q�此�?/span>Tomcat6��目的目录结构如下：

�q�有�Q�请�?/span>test目录也加入到源代码中�Q�方法是�?/span>Eclipse中右�?/span>”test”目录�Q�然后在弹出菜单中选择“Build path”à”Use as Source Folder”�Q�之后我们会看到test目录上就多了个源代码的符��P��如上图所�C��?/span>

3.5�?/span>Eclipse中运�?/span>Tomcat。请扑ֈ�Tomcat的启动主�c?/span>org.apache.catalina.startup.Bootstrap�Q�右击这个类�Q�在弹出菜单中选择“Run As…”à”Open Run Dialog…”�Q�然后在弹出�?#8220;Run”�H�口中填入程序运行参�?#8220;start”�?/span>JVM�q�行参数catalina.home�Q�如下面�H�口所�C�：

然后点击“Run”按钮�Q�我们将会看�?/span>Tomcat正常启动。恭喜，�׃��?/span>Tomcat源码已经成功导入Eclipse�Q�这�Ӟ��可视化的UML分析工具�?/span>Debug工具��p��z�上用场了�?/span>

3.5 调试Tomcat�Q�请打开org.apache.jasper.compiler.Compiler�cȝ��源代码，�?/span>generateJava()�Ҏ��的第一行打一个断点，然后�?/span>Eclipse的调试状态下�q�行Tomcat�Q�等Tomcat�q�行后，打开我们的浏览器�Q�在地址栏中输入http://localhost:8080/examples/jsp/jsp2/el/basic-comparisons.jsp�q�回车，然后我们可观察到Eclipse此时切换臌��试视图：

上面的小实验表明我们可以�?/span>Eclipse中通过Debugger观察Tomcat的内部运行机理。另外补充一点，上面�?/span>generateJava�Ҏ��是将jsp动态编译至java class�Q�这个方法只是在�W�一�ơ请求或�?/span>Jsp源码发生变化时执行，如果您再�ơ在��览器中发送同��L��h��Q�您��看不到上图�?/span>Debug界面�Q�因��Ҏ��不再执行�?/span>

另外�Q�还有一点很有意思�?/span>Tomcat6以前版本的源代码分散在好几个子项目中�Q�他们分别叫�?/span>jakarta-servletapi-5�Q?/span>jakarta-tomcat-5�Q?/span>jakarta-tomcat-catalina�Q?/span>jakarta-tomcat-connectors�?/span>jakarta-tomcat-jasper�Q�我觉得Tomcat的开发者可能嫌�q�样做太�ȝ��了，所�?/span>Tomcat6版本中将�q�些子项目都合�ƈ在一起了。但是，�q�种做法不利于我们阅�ȝ��解源代码

矛_��@ 2009-06-17 18:07 发表评论