Calvin's Tech Space

成于堅(jiān)忍，毀于浮躁

:: 管理

關(guān)于XML DOM模型更重要的參考資源：

http://www.w3school.com.cn/xmldom/dom_nodes.asp

一、前言
用Java解析XML文檔，目前有以下方法：
首先是DOM，DOM 是用與平臺(tái)和語言無關(guān)的方式表示 XML 文檔的官方 W3C 標(biāo)準(zhǔn)。DOM 是以層次結(jié)構(gòu)組織的節(jié)點(diǎn)或信息片斷的集合。這個(gè)層次結(jié)構(gòu)允許開發(fā)人員在樹中尋找特定信息。分析該結(jié)構(gòu)通常需要加載整個(gè)文檔和構(gòu)造層次結(jié)構(gòu)，然后才能做任何工作。由于它是基于信息層次的，因而 DOM 被認(rèn)為是基于樹或基于對(duì)象的。DOM 以及廣義的基于樹的處理具有幾個(gè)優(yōu)點(diǎn)。
首先，由于樹在內(nèi)存中是持久的，因此可以修改它以便應(yīng)用程序能對(duì)數(shù)據(jù)和結(jié)構(gòu)作出更改。它還可以在任何時(shí)候在樹中上下導(dǎo)航，而不是像 SAX 那樣是一次性的處理。DOM 使用起來也要簡(jiǎn)單得多。

　　另一方面，對(duì)于特別大的文檔，解析和加載整個(gè)文檔可能很慢且很耗資源，因此使用其他手段來處理這樣的數(shù)據(jù)會(huì)更好。這些基于事件的模型，比如 SAX。接著是 SAX這種處理的優(yōu)點(diǎn)非常類似于流媒體的優(yōu)點(diǎn)。分析能夠立即開始，而不是等待所有的數(shù)據(jù)被處理。而且，由于應(yīng)用程序只是在讀取數(shù)據(jù)時(shí)檢查數(shù)據(jù)，因此不需要將數(shù)據(jù)存儲(chǔ)在內(nèi)存中。這對(duì)于大型文檔來說是個(gè)巨大的優(yōu)點(diǎn)。事實(shí)上，應(yīng)用程序甚至不必解析整個(gè)文檔；它可以在某個(gè)條件得到滿足時(shí)停止解析。一般來說，SAX 還比它的替代者 DOM 快許多再接著是 JDOM JDOM 的目的是成為 Java 特定文檔模型，它簡(jiǎn)化與 XML 的交互并且比使用 DOM 實(shí)現(xiàn)更快。由于是第一個(gè) Java 特定模型，JDOM 一直得到大力推廣和促進(jìn)。正在考慮通過“Java 規(guī)范請(qǐng)求 JSR-102”將它最終用作“Java 標(biāo)準(zhǔn)擴(kuò)展”。從 2000 年初就已經(jīng)開始了 JDOM 開發(fā)。

　　JDOM 與 DOM 主要有兩方面不同。首先，JDOM 僅使用具體類而不使用接口。這在某些方面簡(jiǎn)化了 API，但是也限制了靈活性。第二，API 大量使用了 Collections 類，簡(jiǎn)化了那些已經(jīng)熟悉這些類的 Java 開發(fā)者的使用。

　　JDOM 文檔聲明其目的是“使用 20%（或更少）的精力解決 80%（或更多）Java/XML 問題”（根據(jù)學(xué)習(xí)曲線假定為 20%）。JDOM 對(duì)于大多數(shù) Java/XML 應(yīng)用程序來說當(dāng)然是有用的，并且大多數(shù)開發(fā)者發(fā)現(xiàn) API 比 DOM 容易理解得多。JDOM 還包括對(duì)程序行為的相當(dāng)廣泛檢查以防止用戶做任何在 XML 中無意義的事。然而，它仍需要您充分理解 XML 以便做一些超出基本的工作（或者甚至理解某些情況下的錯(cuò)誤）。這也許是比學(xué)習(xí) DOM 或 JDOM 接口都更有意義的工作。

　　JDOM 自身不包含解析器。它通常使用 SAX2 解析器來解析和驗(yàn)證輸入 XML 文檔（盡管它還可以將以前構(gòu)造的 DOM 表示作為輸入）。它包含一些轉(zhuǎn)換器以將 JDOM 表示輸出成 SAX2 事件流、DOM 模型或 XML 文本文檔。JDOM 是在 Apache 許可證變體下發(fā)布的開放源碼。
最后是 DOM4J http://dom4j.sourceforge.net/.雖然 DOM4J 代表了完全獨(dú)立的開發(fā)結(jié)果，但最初，它是 JDOM 的一種智能分支。它合并了許多超出基本 XML 文檔表示的功能，包括集成的 XPath 支持、XML Schema 支持以及用于大文檔或流化文檔的基于事件的處理。它還提供了構(gòu)建文檔表示的選項(xiàng)，它通過 DOM4J API 和標(biāo)準(zhǔn) DOM 接口具有并行訪問功能。從 2000 下半年開始，它就一直處于開發(fā)之中。

　　為支持所有這些功能，DOM4J 使用接口和抽象基本類方法。DOM4J 大量使用了 API 中的 Collections 類，但是在許多情況下，它還提供一些替代方法以允許更好的性能或更直接的編碼方法。直接好處是，雖然 DOM4J 付出了更復(fù)雜的 API 的代價(jià)，但是它提供了比 JDOM 大得多的靈活性。

　　在添加靈活性、XPath 集成和對(duì)大文檔處理的目標(biāo)時(shí)，DOM4J 的目標(biāo)與 JDOM 是一樣的：針對(duì) Java 開發(fā)者的易用性和直觀操作。它還致力于成為比 JDOM 更完整的解決方案，實(shí)現(xiàn)在本質(zhì)上處理所有 Java/XML 問題的目標(biāo)。在完成該目標(biāo)時(shí)，它比 JDOM 更少強(qiáng)調(diào)防止不正確的應(yīng)用程序行為。

　　DOM4J 是一個(gè)非常非常優(yōu)秀的Java XML API，具有性能優(yōu)異、功能強(qiáng)大和極端易用使用的特點(diǎn)，同時(shí)它也是一個(gè)開放源代碼的軟件。如今你可以看到越來越多的 Java 軟件都在使用 DOM4J 來讀寫 XML，特別值得一提的是連 Sun 的 JAXM 也在用 DOM4J。 JDOM 和 DOM 在性能測(cè)試時(shí)表現(xiàn)不佳，在測(cè)試 10M 文檔時(shí)內(nèi)存溢出。在小文檔情況下還值得考慮使用 DOM 和 JDOM。雖然 JDOM 的開發(fā)者已經(jīng)說明他們期望在正式發(fā)行版前專注性能問題，但是從性能觀點(diǎn)來看，它確實(shí)沒有值得推薦之處。另外，DOM 仍是一個(gè)非常好的選擇。DOM 實(shí)現(xiàn)廣泛應(yīng)用于多種編程語言。它還是許多其它與 XML 相關(guān)的標(biāo)準(zhǔn)的基礎(chǔ)，因?yàn)樗将@得 W3C 推薦（與基于非標(biāo)準(zhǔn)的 Java 模型相對(duì)），所以在某些類型的項(xiàng)目中可能也需要它（如在 JavaScript 中使用 DOM）。

　　SAX表現(xiàn)較好，這要依賴于它特定的解析方式。一個(gè) SAX 檢測(cè)即將到來的XML流，但并沒有載入到內(nèi)存（當(dāng)然當(dāng)XML流被讀入時(shí)，會(huì)有部分文檔暫時(shí)隱藏在內(nèi)存中）。

　　無疑，DOM4J是這場(chǎng)測(cè)試的獲勝者，目前許多開源項(xiàng)目中大量采用 DOM4J，例如大名鼎鼎的 Hibernate 也用 DOM4J 來讀取 XML 配置文件。如果不考慮可移植性，那就采用DOM4J吧！

使用基于事件的XML簡(jiǎn)單API（Simple API for XML）稱為SAX和基于樹和節(jié)點(diǎn)的文檔對(duì)象模型（Document Object Module）稱為DOM。Sun公司提供了Java API for XML Parsing（JAXP）接口來使用SAX和DOM，通過JAXP，我們可以使用任何與JAXP兼容的XML解析器。
JAXP接口包含了三個(gè)包：
（1）org.w3c.dom　W3C推薦的用于XML標(biāo)準(zhǔn)規(guī)劃文檔對(duì)象模型的接口。
（2）org.xml.sax　用于對(duì)XML進(jìn)行語法分析的事件驅(qū)動(dòng)的XML簡(jiǎn)單API（SAX）
（3）javax.xml.parsers解析器工廠工具，程序員獲得并配置特殊的特殊語法分析器。

二、前提

DOM編程不要其它的依賴包，因?yàn)镴DK里自帶的JDK里含有的上面提到的org.w3c.dom、org.xml.sax 和javax.xml.parsers包就可以滿意條件了。

三、使用DOM解析XML文檔

我們現(xiàn)在來看看DOM是如何解析XML的吧！同樣的，我將從一個(gè)簡(jiǎn)單的不能再簡(jiǎn)單的例子來說明DOM是如何解析XML文檔的，先讓我們看看XML是什么內(nèi)容吧：

<?xml version="1.0" encoding="gb2312"?>
<books>
<book email="zhoujunhui">
<name>rjzjh</name>
<price>jjjjjj</price>
</book>
</books>

簡(jiǎn)單的不能再簡(jiǎn)單了。但是該有的都有了，根元素、屬性、子節(jié)點(diǎn)。好了，能反應(yīng)問題就行了，下面來看看解析這個(gè)XML文件的Java代碼吧！

1 public class DomParse {
2     public DomParse(){
3        DocumentBuilderFactory domfac=DocumentBuilderFactory.newInstance();
4        try {
5            DocumentBuilder dombuilder=domfac.newDocumentBuilder();
6            InputStream is=new FileInputStream("bin/library.xml");
7            Document doc=dombuilder.parse(is);
9            Element root=doc.getDocumentElement();
10          NodeList books=root.getChildNodes();
11          if(books!=null){
12              for(int i=0;i<books.getLength();i++){
13                  Node book=books.item(i);
14                  if(book.getNodeType()==Node.ELEMENT_NODE){
15                      String email=book.getAttributes().getNamedItem("email").getNodeValue();
16                      System.out.println(email);
17                      for(Node node=book.getFirstChild();node!=null;node=node.getNextSibling()){
18                          if(node.getNodeType()==Node.ELEMENT_NODE){
19                              if(node.getNodeName().equals("name")){
20                                  String name=node.getNodeValue();
21                                  String name1=node.getFirstChild().getNodeValue();
22                                  System.out.println(name);
23                                  System.out.println(name1);
24                              }
25                              if(node.getNodeName().equals("price")){
26                                  String price=node.getFirstChild().getNodeValue();
27    　　　　　　　 System.out.println(price);
28    　　　　　      }
29                          }
30                      }
31                  }
32              }
33        }
34    } catch (ParserConfigurationException e) {
35    　　e.printStackTrace();
36    } catch (FileNotFoundException e) {
37    　　e.printStackTrace();
38    } catch (SAXException e) {
39　　    e.printStackTrace();
40    } catch (IOException e) {
41　　    e.printStackTrace();
42        }
43    }
44    public static void main(String[] args) {
45        new DomParse();
46    }
47 }

四、代碼解釋

先看看這個(gè)程序引用類：
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStream;
import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.ParserConfigurationException;

//下面主要是org.xml.sax包的類
import org.w3c.dom.Document;
import org.w3c.dom.Element;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;
import org.xml.sax.SAXException;

上面那么簡(jiǎn)單的代碼一看就明白了，但是為了介紹個(gè)DOM編程的大概還是來看看這個(gè)程序吧：

（1）得到DOM解析器的工廠實(shí)例

DocumentBuilderFactory domfac=DocumentBuilderFactory.newInstance();
得到j(luò)avax.xml.parsers.DocumentBuilderFactory;類的實(shí)例就是我們要的解析器工廠

（2）從DOM工廠獲得DOM解析器

DocumentBuilder dombuilder=domfac.newDocumentBuilder();
通過javax.xml.parsers.DocumentBuilderFactory實(shí)例的靜態(tài)方法newDocumentBuilder()得到DOM解析器

（3）把要解析的XML文檔轉(zhuǎn)化為輸入流，以便DOM解析器解析它

InputStream is=new FileInputStream("bin/library.xml");
InputStream是一個(gè)接口。

（4）解析XML文檔的輸入流，得到一個(gè)Document

Document doc=dombuilder.parse(is);
由XML文檔的輸入流得到一個(gè)org.w3c.dom.Document對(duì)象，以后的處理都是對(duì)Document對(duì)象進(jìn)行的

（5）得到XML文檔的根節(jié)點(diǎn)

Element root=doc.getDocumentElement();
在DOM中只有根節(jié)點(diǎn)是一個(gè)org.w3c.dom.Element對(duì)象。

（6）得到節(jié)點(diǎn)的子節(jié)點(diǎn)

NodeList　books=root.getChildNodes();
for(int i=0;i<books.getLength();i++){
Node book=books.item(i);
}
這是用一個(gè)org.w3c.dom.NodeList接口來存放它所有子節(jié)點(diǎn)的，還有一種輪循子節(jié)點(diǎn)的方法，后面有介紹

（7）取得節(jié)點(diǎn)的屬性值

String email=book.getAttributes().getNamedItem("email").getNodeValue();
System.out.println(email);
注意，節(jié)點(diǎn)的屬性也是它的子節(jié)點(diǎn)。它的節(jié)點(diǎn)類型也是Node.ELEMENT_NODE

（8）輪循子節(jié)點(diǎn)

for(Node node=book.getFirstChild();node!=null;node=node.getNextSibling()){
    if(node.getNodeType()==Node.ELEMENT_NODE){
        if(node.getNodeName().equals("name")){
            String name=node.getNodeValue();
            String name1=node.getFirstChild().getNodeValue();
            System.out.println(name);
            System.out.println(name1);
        }
    if(node.getNodeName().equals("price")){
        String price=node.getFirstChild().getNodeValue();
        System.out.println(price);
    }
}

這段代碼的打印輸出為：
null
alterrjzjh
jjjjjj
從上面可以看出
String name=node.getNodeValue();　是一個(gè)空值。而
String name1=node.getFirstChild().getNodeValue();　才是真正的值，這是因?yàn)镈OM把<name> rjzjh</name>也當(dāng)作是兩層結(jié)構(gòu)的節(jié)點(diǎn)，其父節(jié)點(diǎn)為<name>節(jié)點(diǎn)本身，且它只有一個(gè)子節(jié)點(diǎn)（如果有屬性的話就不止一個(gè)了?。?，子節(jié)點(diǎn)是它的值“rjzjh”，所以我們看到上面的結(jié)果。
還有，子節(jié)點(diǎn)的節(jié)點(diǎn)類型也是Node.ELEMENT_NODE型的，node.getNextSibling()方法是取下一個(gè)相鄰的節(jié)點(diǎn)。

五、DOM結(jié)點(diǎn)

DOM是一些節(jié)點(diǎn)的集合，由于文檔中可能包含有不同類型的信息，所以定義了幾種不同類型的節(jié)點(diǎn)。DOM中最常見的節(jié)點(diǎn)類型有：

（1）元素：
元素是XML的基本構(gòu)件。元素的子節(jié)點(diǎn)可以是其它元素、文本節(jié)點(diǎn)或兩者都有。元素節(jié)點(diǎn)還可以只含有屬性這一唯一類型的節(jié)點(diǎn)。

（2）屬性：
屬性節(jié)點(diǎn)包含關(guān)于元素節(jié)點(diǎn)的信息，但它不是元素的子節(jié)點(diǎn)

（3）文本：
文本節(jié)點(diǎn)文本信息，或干脆是空白的文本。

注意：空白文本，回車換行也是文本節(jié)點(diǎn)

（4）文檔：
文檔節(jié)點(diǎn)是整個(gè)文檔中所有其它節(jié)點(diǎn)的父節(jié)點(diǎn)
元素是一種很重要的類型節(jié)點(diǎn)，元素節(jié)點(diǎn)可以是其他節(jié)點(diǎn)的容器。

六、DOM解析XML文檔的步驟：

主要幾步見第四點(diǎn)的（1），（2），（3），（4）步驟

(本文轉(zhuǎn)自http://blog.csdn.net/xiangfu_txe/archive/2008/02/02/2077647.aspx)

posted on 2009-09-08 18:47 calvin 閱讀(1087) 評(píng)論(1) 編輯收藏所屬分類: Java

Feedback

# re: XML文檔解析及用dom解析xml 2013-01-13 18:22 W3School官網(wǎng)

http://www.w3school.org.cn/xmldom/dom_nodes.asp 回復(fù) 更多評(píng)論

新用戶注冊(cè) 刷新評(píng)論列表


只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: InputStream.available()方法重寫equals和hashCode方法利用javap生成方法簽名 Java foreach與泛型擦除 chechstyle異常 “Static variable definition in wrong order” When Runtime.exec() won't 如何中斷線程線程相關(guān)知識(shí)點(diǎn) UTF-8文件頭亂碼問題 CruiseControl配置說明

Calvin's Tech Space

公告

隨筆分類(224)

文章分類(11)

搜索

最新評(píng)論

Feedback