【XML】学�?10 �U�良好的 XML 使用习惯

kooyee — Mon, 23 Jun 2008 12:28:00 GMT

��Z��都很喜欢 XML 以及它所提供的灵�z�L��和互操作性，但是�Q�通过使用一些技巧，可以使与 XML 的互操作和与 XML 一起��用的工具更加��单。在处理 XML 时养成一些良好的习惯可以保证最高效地利用您�?XML 文档和应用程序�?/p>

回页�?/strong>

使用 10 �U�良好的习惯

以下�?10 �U�最良好�?XML 习惯�Q?/p>

定义 XML 和编�?/a>
使用 DTD �?XSD
记得�q�行验证
验证�q�不��L��能够解决问题
XML �l�构和属�?/a>
使用 XPath 查找信息
�q�不��L��需要��用解析器提取信息
何时使用 SAX 而非 DOM 解析
何时使用 DOM 而非 SAX 解析
使用良好�?XML �~�辑�?/a>

回页�?/strong>

定义 XML 和编�?/span>

�l�常使用的羃写词

DOM�Q�文��对象模型（Document Object Model�Q?
DTD�Q�文��类型定义（Document Type Definition�Q?
HTML�Q�超文本标记语言�Q�Hypertext Markup Language�Q?
IDE�Q�集成开发环境（Integrated Development Environment�Q?
SAX�Q�XML ��?API�Q�Simple API for XML�Q?
XSD�Q�XML 模式定义�Q�XML Schema Definition�Q?
XML�Q�可扩展标记语言�Q�Extensible Markup Language�Q?
XSLT�Q�可扩展样式表语�a�转换�Q�Extensible Stylesheet Language Transformations�Q?

在快速创�?XML 文档�Ӟ��一般都会們֐�于创建基本的�l�构�q��开一些普�?XML 文��需求，包括指定 XML 文��声明�?XML 文��包含的数据的�~�码�c�d��?

考虑清单 1 所�C�的 XML 文��?/p>
清单 1. 未包�?XML 声明和数据编码类型的 XML 文��

            
            Hello
            Buongiorno
            Salut!

对于普通�h来说�Q�可以查看该文��q�将其识别�ؓ XML�Q�但是对于计��机来说�Q�则很难作出�q�样的判断。在文�g�剙��d�� XML 声明�Q�可以��它更加明��、更�Ҏ��识别。一行简单的代码��可以说明文档是 XML�Q��ƈ且指出版本号�?XML 数据使用的字�W�编码类型。例如：

�~�码说明中的内容也应该确保正��性。XML 解析器��用编码确�?XML 文��的单个字�W�被正确载入。例如，�l�箋清单 1 中基于短语的�C�Z��Q�如果向文��d��一个俄语条目，则会出现问题�Q�因为目前指定的�~�码不支持扩展的字符集（使用俄语短语表示 hello 时要求��用扩展字�W�集�Q��?/p>

指定错误的编码意味着解析器不能正��处理文��；例如�Q�如果将一个多字节扩展字符��d��Z��个单字节�l�成的序列，那么会导致数据的损坏和不良输出�?

回页�?/strong>

使用 DTD �?XSD

��d��?XML 声明后，应该��保使用 DTD �?XSD 定义有效�?XML 文�g的结构。这两种�Ҏ��都允�?XML 解析器检查�ƈ��定 XML 文�g的内容与建模数据对应的结构相匚w��?/p>

例如�Q�给��Z��个针对联�p�（contact�Q�数据库的简�?XML �l�构�Q�您希望定义一�U�结构来指定联系人的姓名、地址和电话号码。��?DTD �Ҏ��可以使您映射�q�种�l�构�q�确保结构中的每一个联�p�M�h与布局相匹配�?

例如�Q�清�?2 中显�C�Z��针对联系数据库的 DTD�?

清单 2. 用于联系数据库的 DTD

DTD 定义了描�q�联�p�M�h所需要的元素、属性（以及�q�些属性所支持的��|��。例如，�?清单 2 可以看到�Q�phone 元素有一�?type 属性，�?address 和其中的 component 元素也有属性�?

使用 DTD 可以帮助��保属性的有效性，�q�且�Q�和验证�q�程一起��用时可以识别��M��问题。当和支�?XML 的编辑器一起��用时�Q�DTD 可以帮助�~�辑和自动完成内宏V�?/p>

XSDs�Q�即模式�Q�可以执行很多与 DTD 相同的功能，但有其独特的用途。例如，一�?XML �~�辑器需要��?DTD 自动完成内容�Q�然而模式在设计文档实际层次�l�构斚w��更加灉|��。您可以�Ҏ��具体环境选择工具�?/p>

回页�?/strong>

记得�q�行验证

查看清单 3�Q�能否找出其中的问题�Q?/p>
清单 3. 验证�C�Z��

            
            
            Martin
            123 456 7890
            123 456 7890
            123 456 7890
            
            Home road
            Home city
            Home state
            12434
            USA
            
            
            
            Sharon
            234 567 8901
            234 567 8901
            
            Other home road
            Other city
            Other state
            39487
            USA
            
            清单 4. 通过 xmllint �q�行清单 3 得到的输�?


    
        
            
                        $ xmllint contacts.xml
            contacts.xml:27: parser error : Unescaped '<' not allowed in attributes values
            Work building, work road
            ^
            contacts.xml:27: parser error : attributes construct error
            Work building, work road
            ^
            contacts.xml:27: parser error : Couldn't find end of Start Tag address line 26
            Work building, work road
            ^
            contacts.xml:32: parser error : Opening and ending tag mismatch: contact line 15
            and address
            
            ^
            contacts.xml:33: parser error : Opening and ending tag mismatch: contacts line 1
            and contact
            
            ^
            contacts.xml:34: parser error : Extra content at the end of the document
            
            
            
        
    



���管与最初的问题�Q�其中的一个属性没有结束）相比��g��复杂了很多，但却为您查找问题提供了一个�v炏V�?
xmllint �q�支持各�U�各��L��命��o行选项�Q�帮助选择诊断�Ҏ��和结果。其中最有用的一个选项�?--noout�Q�它��L�� xmllint 在解析文件时回传内容。对于较短的文�g来说没有什么媄响，但对于大型文件来说则是一个问题�?
如果正在使用 DTD�Q�那么���?--postvalid 选项告诉 xmllint 针对 DTD 验证内容�Q�确保内容不仅是有效�?XML�Q�而且�q�与 DTD 的结构相匚w��。如果将 使用 DTD �?XSD �?contact 文�g生成�?DTD ��d��到文�Ӟ��那么属性定义错误将被纠正，但随后将生成一个不同的错误�Q�如清单 5 所�C��?


清单 5. xmllint 扑ֈ�不同的错�?/strong>


    
        
            
                        $ xmllint --noout --postvalid contacts.xml
            contacts.xml:9: element address: validity error : Element zipcode is not declared
            in address list of possible children
            contacts.xml:21: element address: validity error : Element zipcode is not declared
            in address list of possible children
            contacts.xml:28: element address: validity error : Element zipcode is not declared
            in address list of possible children
            Document contacts.xml does not validate
            
            
        
    



�q�样使用 xmllint 可以方便快捷地确定文���的�l�构是否有效。xmllint �?libxml2 工具���q��一部分�Q�该工具���已�l�定�?Linux、UNIX® �?Mac OS X�Q�但 Windows® 需要独立下载。有�?xmllint �?libxml2 的更多信息，请参�?参考资�?/a>�?/p>



    
        
            

            
        
    


    
        
            

            
                
                    
                        

                        
                        回页�?/strong>
                    
                
            
            
        
    





验证�q�不��L��能够解决问题
使用 xmllint 和类似工具验�?XML 文�g�Q�特别是如果使用�?DTD�Q�，是验�?XML 文�g内容的很好方法。然而，�q�种�Ҏ��也有其局限性。例如，如何处理 XML 文�g的内容？ 
使用 DTD �?XSD�Q�您可以为属性指定明���的内容。您只是创徏了带有一个字�W�串�?ID 的属性（可以是受限制的可用选项列表的一部分�Q�，但是不能使用�q�种方式控制或限制元素的内容�?
例如�Q�在联系人示例中�Q�telephone numbers 元素包含数字和空根{��但是没办法��L��用户向该元素��d��字母字符。这样做在���?xmllint �q�行验证时不会检查出错误�Q��ƈ且编辑器和其他支�?XML 的解��x��案也无法解决或识别这个问题。应用程序出现的故障可能和您预料的一��P��因�ؓ它识别出一个非标准数据�c�d���?
���而言之，XML 验证只能保证�l�构正确�Q�而无法保证数据的有效性�?
解决此问题的最���单方法是�~�写一个解析器�Q�它可以��d�� XML 文�g�q�实际验证数据内宏V��但是不要过度地验证内容�Q�只需���保数据�W�合应用�E�序的要求�?



    
        
            

            
        
    


    
        
            

            
                
                    
                        

                        
                        回页�?/strong>
                    
                
            
            
        
    





XML �l�构和属�?/span>
对于�I�竟是��用属性还是元素来描述希望�?XML 文�g中呈现的信息�Q��h们存在着不同的看法�?/p>
一般的做法是，使用元素�Q�即标记之间的数据）定义文�g包含的信息，而属性则用于提供所描述数据的扩展限制�?/p>
元素和属性都各有弊端。例如，属性不能够在标��C��重复�Q�这是元素优于属性的典型例子。元素支持重复信息的能力使其非常实用。相反，使用元素限制数据有时处理��h��会比较复杂�?/p>
联系人示例中的电话号码很好地解释了属性的优点。在�q�个�C�Z��中，如清�?6 所�C�，使用属性限制电话号码的�c�d���Q�例如办公、住宅或�U�d��电话�Q��?


清单 6. 限制电话��L��的类�?/strong>


    
        
            
                        123 456 7890
            123 456 7890
            123 456 7890
            
            
        
    



使用�q�种�l�构�Q�能够轻村֜�把号码作��Z��个整体（忽略属性）�Q�或者挑选特定的电话��L���c�d���Q���用属性）�?
���此�l�构与清�?7 中只使用元素设计的结构进行比较�?/p>


清单 7. 只��用元素限制电话号�?/strong>


    
        
            
                        
            home
            123 456 7890
            
            
            mobile
            123 456 7890
            
            
            work
            123 456 7890
            
            
            
        
    



现在�q�很隑ֈ�断孰优孰劣。尽���从理论上说��M�� XML 解析器或适当�?XPath 定义都可以把您需要的信息抽取出来。但�q�样做获益不大，�q�且使得 XML 文���很难阅读�?/p>



    
        
            

            
        
    


    
        
            

            
                
                    
                        

                        
                        回页�?/strong>
                    
                
            
            
        
    





使用 XPath 查找信息
在处�?XML 数据�Ӟ��查找需要的信息非常复杂。您可以�~�写一个解析器来挑选需要的信息�Q�但在某些情况下�Q�您只需要快速地扑ֈ�文�g中的一���段信息�?/p>
例如�Q�如果需要从联系�?XML 文�g中提出所有国家的列表�Q�以便查看联�p�M�h在全球的分布范围�Q�那么可以���?XPath 来挑选信息�?/p>
通过��?XML 文�g的结构作为查询的一部分�Q�XPath 使您能够�?XML 文�g中抽取数据。例如，通过提供特定元素�?XML 文�g中的路径�Q�您可以提取该元素的数据�Q?

    
        
            
            $ xpath contacts.xml '//contact/address/country'
            
        
    



您可以按照下面这样分析内容：

    最开头的双斜杠（//�Q�表�C�在文���的�Q意位�|�查找指定的元素�Q�contact�Q��?
    
下一个斜杠和元素名指定了要查扄���下一个元素（address�Q��?���是��_���?contact 元素内查�?address 元素�?
    
最后的斜杠重复此过�E�，�q�一�ơ查扄����?country 元素�?

注意�Q�在�q�个�C�Z��中，您限定了从中选择信息的地址的类型，因此���选择所有地址。您可以在清�?8 中查�?XPath 查询的结果�?/p>


清单 8. XPath 查询的结�?/strong>


    
        
            
                        $ xpath contacts.xml '//contact/address/country'
            Found 3 nodes:
            -- NODE --
            USA-- NODE --
            USA-- NODE --
            USA
            
            
        
    



如果需要挑选更具体的数据，可以指定要匹配的元素或属性的内容。例如，如果只选择手机��L���Q�您需要指定属性类型和倹{���ؓ此，使用�Q�@�Q�符��P��它表�C�您要求搜烦一个属性，然后指定需要匹配的��|��参加清单 9 �Q��?/p>


清单 9. 只选择手机��L��


    
        
            
                        $ xpath contacts.xml '//contact/phone[@type="mobile"]'
            Found 1 nodes:
            -- NODE --
            123 456 7890
            
            
        
    



清单 8 �?9 都��用了一个命令行工具。很�?XML 工具���都提供了原生方法来处理 XPath 元素�Q��ƈ且您可以使用 XPath 规范提取数据在应用程序中直接使用�Q�而不需要��用解析器来获取信息�?/p>



    
        
            

            
        
    


    
        
            

            
                
                    
                        

                        
                        回页�?/strong>
                    
                
            
            
        
    





�q�不��L��需要��用解析器提取信息
���管有些意想不到�Q�但您�ƈ一定需要��用一�U�功能完善的 XML 解析器，使用 SAX、DOM 或其他技术（�?XPath �?XQuery�Q�从 XML 文�g中提取需要的信息�?/p>
XML 文�g使用�l�构化的格式包含数据�Q�但是有时您需要信息��用自�w�的�l�构化格式。要快速查找一个信息片�D�|���Q�通常可以使用更简单的解决�Ҏ���?
通常�Q�您仅需使用 grep、Perl 或其他类似工��h��取所需的数据，而不需要以 XML 文�g的�Ş式实际解释文���的�l�构或内宏V�?/p>
例如�Q�您可以使用 grep 选择电话��L���Q�参见清�?10�Q��?/p>


清单 10. 使用 grep 选择电话��L��


    
        
            
                        $ grep '123 456 7890
            123 456 7890
            123 456 7890
            234 567 8901
            234 567 8901
            
            
        
    



您���?grep 选择了需要的信息�Q��ƈ且不需要考虑信息�?XML 格式或者信息的�l�构�?/p>
如果需要查扄���短的信息片段�Q�简化的处理技术可以查扑ֈ�所需的信息，�q�且避免了��用传�l�解析方法的开销�?



    
        
            

            
        
    


    
        
            

            
                
                    
                        

                        
                        回页�?/strong>
                    
                
            
            
        
    





何时使用 SAX 而非 DOM 解析
当�ؓ文���构徏一个解析器以获得所需信息�Ӟ��常常很难军_��何时使用��Z�� SAX 的处理程序，何时使用��Z�� DOM 的处理程序�?
关于�q�个问题的最���单解��x��法是同时考虑文���的复杂性和所查找信息的用途。如果要转换文����Q�或者文档非常大�Q�那�?SAX 是最佳选择�?
SAX 逐个解析文档元素�Q�在识别元素时调用方法或函数。如果将一�?XML 文���转换为另一�U�格式，例如��?XML 转换�?HTML�Q�那�?SAX 是最有效的方式。您不必���整个文���加入到内存中，只需响应被识别出的元素和�l�构�?
SAX 的缺�Ҏ���Q�如果需要保存或记录�l�构�Q�或者理解整个文����ƈ从其中挑选单个元素（例如�Q�从所有记录中选择单个联系人）�Q�则必须构徏复杂的处理程序，以加载数据�ƈ���数据记录到�l�构中，然后���元素标识到输出目标中�?



    
        
            

            
        
    


    
        
            

            
                
                    
                        

                        
                        回页�?/strong>
                    
                
            
            
        
    





何时使用 DOM 而非 SAX 解析
DOM 可以���整个文���及其结构蝲入到内存�Q��ƈ允许您在应用�E�序内部引用和���?XML 文档的结构。如在联�p�M�h�C�Z��中，您可以将整个联系人数据库��d��内存�Q�然后通过遍历联系人选择所有的电话��L���Q�接着在每个联�p�M�h内部遍历每个电话��L���?
�׃�� DOM 保留了结构，更重要的是可以理解和处理�l�构�Q�您可以��L��地对�l�构�q�行整体或单独的处理。仍然以联系人示例�ؓ例，使用 SAX 插入新的联系人将非常复杂。但是如果���?DOM�Q�您只需���一个表�C�新联系人的�?XML 元素插入到现有的 XML 文档�?
DOM 的缺��h��使用���方式处理文�?�?例如�Q��{换�ؓ HTML �?�q�于复杂�Q�因为必���d���l�构内逐个遍历每个元素来处理文����?
此外�Q�由�?DOM 在解析其间将整个 XML 文档载入到内存中�Q�DOM 解析器会变得非常慢�ƈ且需要更多的内存。但 DOM 处理�q�样做也有一些好处；例如�Q�在一�ơ解析过�E�中�Q�可以对使用 DOM 解析�?XML 文档�q�行多次处理。而���?SAX�Q�则需要多�ơ重复解析过�E�才能获得相同的效果�?
讉K�� 参考资�?/a>�Q�查找更多关于���?DOM �?SAX 的信息�?/p>



    
        
            

            
        
    


    
        
            

            
                
                    
                        

                        
                        回页�?/strong>
                    
                
            
            
        
    





使用良好�?XML �~�辑�?/span>
如果�l�常需要编写和使用 XML�Q�那么必���L��有一个良好的 XML �~�辑器。XML �~�辑器不同于标准的文本编辑器�Q�前者可以理�?XML 的结构和布局。XML �~�辑器提供的丰富�Ҏ����处理 XML 更加���单，�q�些�Ҏ��包括：

    完成 �?��Z��个快完成的元素输入字�W�，�~�辑器可以自动帮您输入剩下的内容�?
    
内容完成 �?如果�?XML 文�g使用 DTD�Q�那么编辑器可以为您填充�q�格式化部分内容。例如，�?contacts DTD 中，phone 元素�?type 属性是一个必需元素。��用智�?XML �~�辑器，在创�?phone 标记�Ӟ��该属性（��gؓ�I�）���自动引入到文本中�?
    
内联格式�?�?�~�辑器可以��您的 XML 更加易于阅读和理解。这可以在编辑时立即实现�Q�也可以通过单独的格式命令实现。最�l�得到可以理解�ƈ可以更快速地标识�?XML�?
    
内置验证 �?在输入内�Ҏ���Q�编辑器可以验证 XML 文档的错误，在编辑器中立即突出显�C�各�U�问题，�q�样您就知道该如何解册���些问题�?
    
内置���译和�{�?�?一�?XML �~�辑器包�?XPath、XQuery 界面�Q�某些情况下�q�包�?XSLT 和其他�{换的界面�Q�因此可以在�~�辑环境中查看�{换结果�?
    
学习和操�?�?有时您在 DTD 之前创徏 XML �l�构。在�q�种情况下，�~�辑器可以读�?XML 文�g�Q�学习它的结构�ƈ创徏一�?DTD �q�行验证�Q�这样可以�ؓ您节省大量的旉���和精力�?

好的 XML �~�辑器包�?Eclipse �?oXygenXML�Q�但是还有很多其他选择�?



    
        
            

            
        
    


    
        
            

            
                
                    
                        

                        
                        回页�?/strong>
                    
                
            
            
        
    





�l�束�?/span>
��L��良好�?XML 处理习惯�Q�一切将大有不同�Q�包括利�?XML 提供的功能、打�?XML 标准�q�行验证的基���知识以及正确处理解析。本文可以帮助您学习�q?10 个好习惯�Q�从而提高处�?XML 文���和数据的效率�?/p>

kooyee 2008-06-23 20:28 发表评论

亚洲美国产亚洲AV,亚洲图片校园春色,亚洲13又紧又嫩又水多

【XML】学�?10 �U�良好的 XML 使用习惯