從lex&yacc說到編譯器(5.實(shí)用javacc)

前言

本系列的文章的宗旨是讓大家能夠?qū)懗鲎约旱木幾g器,解釋器或者腳本引擎,所以每到理論介紹到一個(gè)程度后,我都會來討論實(shí)踐問題.理論方面,編譯原理的教材已經(jīng)是夠多了,而實(shí)踐的問題卻很少討論.

前幾節(jié)文章只討論到了詞法分析和LL文法分析,關(guān)鍵的LR文法分析這里卻還沒有講,我們先不要管復(fù)雜的LR文法和算法,讓我們使用LL算法來實(shí)際做一些東西后再說.本文將介紹一個(gè)在JAVA上廣泛使用的LL算法分析工具Javacc.(這是我唯一能找到的使用LL算法的語法分析器構(gòu)造工具).這一節(jié)的文章并非只針對JAVA開發(fā)者,如果你是C/C++開發(fā)者,那么也請你來看看這個(gè)JAVA下的優(yōu)秀工具,或許你將來也用得著它.

Lex和yacc這兩個(gè)工具是經(jīng)典的詞法分析和語法分析工具,但是它們都是基于C語言下面的工具,而使用JAVA的朋友們就用不上了.但是JAVA下已經(jīng)有了lex和yacc的替代品javacc( Java Compiler Compiler ) .同時(shí)javacc也是使用LL算法的工具,我們也可以實(shí)踐一下前面學(xué)的LL算法.

首先聲明我不是一個(gè)JAVA專家,我也是剛剛才接觸JAVA.Java里面或許有很多類似javacc一樣的工具,但是據(jù)我所知,javacc還是最廣泛,最標(biāo)準(zhǔn)的JAVA下的詞法語法分析器.

Javacc的獲取

同lex和yacc一樣,javacc也是一個(gè)免費(fèi)可以獲取的通用工具,它可以在很多JAVA相關(guān)的工具下載網(wǎng)站下載,當(dāng)然,javacc所占的磁盤空間比起lex和yacc更大一些,里面有標(biāo)準(zhǔn)的文檔和examples.相對lex和yacc來說,javacc做得更人性化,更容易一些.如果你實(shí)在找不到j(luò)avacc,還是可以聯(lián)系我,我這里有.現(xiàn)在最新的就是javacc 3.2版本.

Javacc的原理

Javacc可以同時(shí)完成對text的詞法分析和語法分析的工作,使用起來相當(dāng)方便.同樣,它和lex和yacc一樣,先輸入一個(gè)按照它規(guī)定的格式的文件,然后javacc根據(jù)你輸入的文件來生成相應(yīng)的詞法分析于語法分析程序.同時(shí),新版本的Javacc除了常規(guī)的詞法分析和語法分析以外,還提供JJTree等工具來幫助我們建立語法樹.總之,Javacc在很多地方做得都比lex和yacc要人性化,這個(gè)在后面的輸入文件格式中也能體現(xiàn)出來.

Javacc的輸入文件

Javacc的輸入文件格式做得比較簡單.每個(gè)非終結(jié)符產(chǎn)生式對應(yīng)一個(gè)Class中的函數(shù),函數(shù)中可以嵌入相應(yīng)的識別出該終結(jié)符文法時(shí)候的處理代碼(也叫動(dòng)作).這個(gè)與YACC中是一致的.

Javacc的輸入文件中,有一系列的系統(tǒng)參數(shù),比如其中l(wèi)ookahead可以設(shè)置成大于1的整數(shù),那么就是說,它可以為我們生成LL(k)算法(k>=1),而不是簡單的遞歸下降那樣的LL(1)算法了.要知道,LL(2)文法比起前面討論的LL(1)文法判斷每個(gè)非終結(jié)符時(shí)候需要看前面兩個(gè)記號而不是一個(gè),那么對于文法形式的限制就更少.不過LL(2)的算法當(dāng)然也比LL(1)算法慢了不少.作為一般的計(jì)算機(jī)程序設(shè)計(jì)語言,LL(1)算法已經(jīng)是足夠了.就算不是LL(1)算法,我們也可以通過前面講的左提公因式把它變成一個(gè)LL(1)文法來處理.不過既然javacc都把lookahead選擇做出來了,那么在某些特定的情況下,我們可以直接調(diào)整一個(gè)lookahead的參數(shù)就可以,而不必糾正我們的文法.

下面我們來看看Javacc中自帶的example中的例子.

例5.1

這個(gè)例子可以在javacc-3.2/doc/examples/SimpleExamples/Simple1.jj看到

PARSER_BEGIN(Simple1)

public class Simple1 {

public static void main(String args[]) throws ParseException {

??? Simple1 parser = new Simple1(System.in);

??? parser.Input();

? }

}

PARSER_END(Simple1)

void Input() :

{}

{

? MatchedBraces() ("\n"|"\r")* <EOF>

}

void MatchedBraces() :

{}

{

"{" [ MatchedBraces() ] "}"

}

設(shè)置好javacc的bin目錄后,在命令提示符下輸入

javacc Simple1.jj

然后 javacc 就會為你生成下面幾個(gè) java 源代碼文件

Simple1.java

Simple1TokenManager.java

Simple1Constants.java

SimpleCharStream.java

Token.java

TokenMgrError.java

其中Simple1就是你的語法分析器的對象,它的構(gòu)造函數(shù)參數(shù)就是要分析的輸入流,這里的是System.in.

class Simple1就定義在標(biāo)記 PARSER_BEGIN(Simple1)

PARSER_END(Simple1)之間.

但是必須清楚的是,PARSER_BEGIN和PARSER_END中的名字必須是詞法分析器的名字(這里是Simple1).

PARSER_END下面的定義就是文法非終結(jié)符號的定義了.

Simple1的文法基本就是:

Input -> MatchedBraces ("\n"|"\r")* <EOF>

MatchedBraces -> “ { “ MatchedBraces “ } ”

從它的定義我們可以看到 , 每個(gè)非終結(jié)符號對于一個(gè)過程 .

比如 Input 的過程

void Input() :

{}

{

? MatchedBraces() ("\n"|"\r")* <EOF>

}

在定義 void Input 后面記住需要加上一個(gè)冒號 ”:”, 然后接下來是兩個(gè)塊 {} 的定義 .

第一個(gè) {} 中的代碼是定義數(shù)據(jù) , 初試化數(shù)據(jù)的代碼 . 第二個(gè) {} 中的部分就是真正定義 Input 的產(chǎn)生式了 .

每個(gè)產(chǎn)生式之間用 ”|” 符號連接 .

注意 : 這里的產(chǎn)生式并非需要嚴(yán)格 BNF 范式文法 , 它的文法既可以是 BNF, 同時(shí)還可以是混合了正則表達(dá)式中的定義方法 . 比如上面的

Input -> MatchedBraces ("\n"|"\r")* <EOF>

中 (“\n”|”\r”)* 就是個(gè)正則表達(dá)式 , 表示的是 \n 或者 \r 的 0 個(gè)到無限個(gè)的重復(fù)的記號 .

而 <EOF> 是 javacc 系統(tǒng)定義的記號 (TOKEN), 表示文件結(jié)束符號 .

除了 <EOF>, 無論是系統(tǒng)定義的 TOKEN, 還是自定義的 TOKEN, 里面的 TOKEN 都是以 <token’s name> 的方式表示 .

每個(gè)非終結(jié)符號 (Input 和 MatchedBraces) 都會在 javacc 生成的 Simple1.java 中形成 Class Simple1 的成員函數(shù) . 當(dāng)你在外部調(diào)用 Simple1 的 Input, 那么語法分析器就會開始進(jìn)行語法分析了 .

例 5.2

在 javacc 提供的 example 里面沒有 .javacc 提供的 example 里面提供的例子中 SimpleExamples 過于簡單 , 而其它例子又過于龐大 . 下面我以我們最常見的數(shù)學(xué)四則混合運(yùn)算的文法來構(gòu)造一個(gè) javacc 的文法識別器 . 這個(gè)例子是我自己寫的 , 十分簡單 ,. 其中還包括了文法識別同時(shí)嵌入的構(gòu)建語法樹 Parse-Tree 的代碼 . 不過由于篇幅的原因 , 我并沒有給出全部的代碼 , 這里只給了 javacc 輸入部分相關(guān)的代碼 . 而 Parse-tree 就是一個(gè)普通的 4 叉樹 ,3 個(gè) child,1 個(gè) next( 平行結(jié)點(diǎn) ), 相信大家在學(xué)習(xí)數(shù)據(jù)結(jié)構(gòu)的時(shí)候應(yīng)該都是學(xué)過的 . 所以這里就省略過去了 .

在大家看這些輸入代碼之前 , 我先給出它所使用的文法定義 , 好讓大家有個(gè)清楚的框架 .

Expression -> Term{ Addop Term }
Addop -> "+" | "-"
Term -> Factor { Mulop Factor }
Mulop -> "*" | "/"
Factor -> ID | NUM | "("Expression")"

這里的文法可能和BNF范式有點(diǎn)不同.{}的意思就是0次到無限次重復(fù),它跟我們在學(xué)習(xí)正則表達(dá)式的時(shí)候的”*”符號相同,所以，在Javacc中的文法表示的時(shí)候，{…}部分的就是用(…)*來表示.

為了讓詞法分析做得更簡單 , 我們通常都不會在文法分析的時(shí)候 , 使用 ”(”,”)“ 等字符號串來表示終結(jié)符號 , 而需要轉(zhuǎn)而使用 LPAREN , RPAREN 這樣的整型符號來表示 .

PARSER_BEGIN(Grammar)

public class Grammar implements NodeType {

? public ParseTreeNode GetParseTree(InputStream in) throws ParseException

? {

? ???? Grammar parser =new Grammar(in);

? ???? return parser.Expression();

? }

}

PARSER_END(Grammar)

SKIP :

{

? " " | "\t" | "\n" | "\r"

}

TOKEN :

{

? < ID: ["a"-"z","A"-"Z","_"] ( ["a"-"z","A"-"Z","_","0"-"9"] )* >

|? < NUM: ( ["0"-"9"] )+ >

| ?< PLUS:?? "+" >

| ?< MINUS:? "-" >

| ?< TIMERS: "*" >

| ?< OVER:?? "/" >

| ?< LPAREN: "(" >

| ?< RPAREN: ")" >

}

ParseTreeNode Expression() :

{

???????? ParseTreeNode ParseTree = null;

???????? ParseTreeNode node;

}

{????????????????

?( node=Simple_Expression()

??? if(ParseTree == null)

??? ???????? ParseTree =node;

??? else

??? {

??????? ???????? ParseTreeNode t;

??????? ?? t= ParseTree;

??????? ???????? while(t.next != null)

???????? ???????? t=t.next;

??? ?????????? t.next = node;

??? }

? { return ParseTree;}

? <EOF>

}

ParseTreeNode Simple_Expression() :

{

???????? ParseTreeNode node;

???????? ParseTreeNode t;

???????? int op;

}

{

? node=Term(){}

? (

? op=addop() t=Term()

{

???????? ???????? ParseTreeNode newNode = new ParseTreeNode();

???????? ???????? newNode.nodetype = op;

???????? ???????? newNode.child[0] = node;

???????? ???????? newNode.child[1] = t;

???????? ???????? switch(op)

posted on 2006-05-06 16:18 迷途書童閱讀(969) 評論(1) 編輯收藏所屬分類: 編譯原理

# re: 從lex&yacc說到編譯器(5.實(shí)用javacc) 回復(fù) 更多評論

如果不是寫的，請注明轉(zhuǎn)載
如果轉(zhuǎn)載，請轉(zhuǎn)載完整，ok?

2006-08-02 15:52 | fff

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: JavaCC、解析樹和 XQuery 語法，第 2 部分 JavaCC、解析樹和 XQuery 語法，第 1 部分 JavaCC 用于支持終端用戶對 DB2 UDB 數(shù)據(jù)庫編制簡單從lex&yacc說到編譯器(6.數(shù)學(xué)表達(dá)式) 從lex&yacc說到編譯器(5.實(shí)用javacc) 從lex&yacc說到編譯器(4.文法識別(一)) 從lex&yacc說到編譯器(3.范式文法) 從lex&yacc說到編譯器(2.flex的使用) 從lex&yacc說到編譯器(1.正則表達(dá)式)

# re: 從lex&yacc說到編譯器(5.實(shí)用javacc) 回復(fù) 更多評論

迷途書童

從lex&yacc說到編譯器(5.實(shí)用javacc)

Javacc的獲取

評論

導(dǎo)航

公告

常用鏈接

留言簿(4)

隨筆分類(127)

隨筆檔案(78)

文章分類(3)

文章檔案(3)

相冊

收藏夾(4)

生活

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜