在進行
XML
文法分析之前,首先有必要了解
XML
語法的基本規則:
詞法特征:
1)XML區分大小寫,如元素名在打開和關閉標記中應保持大小寫一致<mytag>…</mytag>,XML的保留詞串應符合大小寫要求<?xml …> <!ENTITY>…。
2)XML保留標記字符為:< > &,保留字符不允許出現在元素名、元素文本、屬性名、屬性值中,< 用戶打開標記,>用于關閉標記,&用于轉意,常見的轉意為 <生成<,>生成>,&生成&,&apos生成’,"生成”
3)元素名以下劃線或字母開始,可包含字母、數字、句點、連字符、下劃線、冒號和用于其他語言的擴展字符,元素名中不能有空格符(分格符、跳格符、換行符、回車符),元素名可以由名域前綴。如:<mytag> <dt:mytag> 元素文本可以是除XML保留字符外的字符集合,如<mytag> my money is $2000 </mytag>
4)屬性名的規則同元素名,屬性值由單引號或雙引號括約其中,可由除XML保留字符以外的字符串組成,如:<mytag myprop=”proper value”>。屬性名有xmlns前綴,表明該屬性定義了一個名域,如:<mytag xmlns:ns=”http://www.myweb.com/myschema”>
句法特征:
1)XML文檔由一個XML說明、多個可選的文檔說明、多個可選的XML指令、多個可選的XML注釋和一個根元素的數據體組成,此外還可以有嵌入語句中的CDATA段,如:
<?xml …?> /*XML說明*/
<!DOCTYPE …> /*XML文檔說明*/
<!-- … --> /*XML注釋*/
<?xml-stylesheet …?> /*XML指令*/
<root> /*根數據元素*/
<child>
…<![CDATA[…]]>
</child>
</root>
2)XML說明由<?xml打開,由?>標關閉,其中包含版本、編碼等可選說明,如:<?xml version=”1.0” encoding=”UTF-9”?>
3)XML文檔說明由<!和保留串打開,由>關閉,如:<!DOCTYPE mydoc SYSTEM “mydoc.dtd”>
4)XML指令由<?和保留串打開,由?>關閉,如:<?xml-stylesheet type=”text/xsl” href=”mystyle.xsl”?>
5)XML注釋由<!――打開,由――>關閉,如:<!-- this is my xml document -->
6)XML元素由<元素名>打開,由/>,或</元素名>關閉,元素的打開和關閉標記相互匹配,如<myteg ../>或<mytag>…</myteg>,XML的元素允許嵌套,應此還應保持層次上的匹配,如<myteg><subtag>..</subtag></mytag>。
7)CDTATA段由<![CDATA[>打開,由]]>關閉,用于使居于其中的語句規避XML解析規則。如:<![CDATA[ select * from mytable where thefield <= ‘100’ ]]>
根據以上的XML文法特征,可以構造出用于詞法分析的正則式和用于句法分析的下推自動機結構。
XML詞法正則式:
#define digit [1,2,…,9] /*數字字符*/
#define letter [a,b,…,z,A,B,…,Z] /*字母字符*/
#define signs [~, ! , @, #, %, ^, &,*,(, ), ?, :, ;, “, ‘, ,, ., /,-, _, +, =, |, \] /*符號字符*/
#define ascii2 [0x80,…,0xFF] /*ASCII chart2 擴展字符*/
#define space [0x20, \t, \r, \n] /*空格符,跳格符,回車符,換行符*/
#define reserve [< , >, &] /*XML保留字符*/
1)元素名的正則式:
element_name -> (_ | letter | ascii2) (ε| _ | - | : | . | digit | letter | signs | ascii2)*
2)元素文本的正則式:
element_text -> (ε| not reserve)*
3)屬性名的正則式:
proper_name -> (_ | letter | ascii2) (ε| _ | - | : | . | digit | letter | signs | ascii2)*
4)屬性文本的正則式:
proper_value -> (ε| not reserve)*
posted on 2006-09-18 08:44
周銳 閱讀(267)
評論(0) 編輯 收藏 所屬分類:
Java 、
XML