9910

單飛

:: 首頁 :: 聯系 :: 聚合

:: 管理

http://extjs2.javaeye.com/blog/394128

正則表達式在字符串處理中經常使用，關于正則簡單的用法相信有一點程序基礎的人都懂得一些，這里就不介紹簡單基礎了。這里主要講解一下在JAVA中實現了的正則的高級用法-分組與捕獲。

    對于要重復單個字符，非常簡單，直接在字符后賣弄加上限定符即可，例如 a+ 表示匹配1個或一個以上的a，a?表示匹配0個或1個a。這些限定符如下所示：

X? X，一次或一次也沒有
X* X，零次或多次
X+ X，一次或多次
X{n} X，恰好 n 次
X{n,} X，至少 n 次
X{n,m} X，至少 n 次，但是不超過 m 次

但是我們如果要對多個字符進行重復怎么辦呢？此時我們就要用到分組，我們可以使用小括號"()"來指定要重復的子表達式，然后對這個子表達式進行重復，例如：(abc)? 表示0個或1個abc 這里一個括號的表達式就表示一個分組。

   分組可以分為兩種形式，捕獲組和非捕獲組。

捕獲組

捕獲組可以通過從左到右計算其開括號來編號。例如，在表達式 ((A)(B(C))) 中，存在四個這樣的組：

1     ((A)(B(C)))
2     "A
3     (B(C))
4     (C)

組零始終代表整個表達式

之所以這樣命名捕獲組是因為在匹配中，保存了與這些組匹配的輸入序列的每個子序列。捕獲的子序列稍后可以通過 Back 引用在表達式中使用，也可以在匹配操作完成后從匹配器檢索。

Back 引用是說在后面的表達式中我們可以使用組的編號來引用前面的表達式所捕獲到的文本序列(是文本不是正則)。

例如 ([" ']).* "1   其中使用了分組，"1就是對引號這個分組的引用，它匹配包含在兩個引號或者兩個單引號中的所有字符串，如，"abc" 或 " ' " 或 ' " ' ，但是請注意，它并不會對" a'或者 'a"匹配。原因上面已經說明，Back引用只是引用文本而不是表達式。

非捕獲組

      以 (?) 開頭的組是純的非捕獲組，它不捕獲文本，也不針對組合計進行計數。就是說，如果小括號中以?號開頭，那么這個分組就不會捕獲文本，當然也不會有組的編號，因此也不存在Back 引用。

      在Java中，支持的非捕獲組，有如下幾種：



(?=X)     X，通過零寬度的正 lookahead
(?!X)     X，通過零寬度的負 lookahead
(?<=X)     X，通過零寬度的正 lookbehind
(?<!X)     X，通過零寬度的負 lookbehind

這四個非捕獲組用于匹配表達式X，但是不包含表達式的文本。

(?=X ) 零寬度正先行斷言。僅當子表達式 X 在此位置的右側匹配時才繼續匹配。例如，"w+(?="d) 與后跟數字的單詞匹配，而不與該數字匹配。此構造不會回溯。
(?!X) 零寬度負先行斷言。僅當子表達式 X 不在此位置的右側匹配時才繼續匹配。例如，例如，"w+(?!"d) 與后不跟數字的單詞匹配，而不與該數字匹配。
(?<=X) 零寬度正后發斷言。僅當子表達式 X 在此位置的左側匹配時才繼續匹配。例如，(?<=19)99 與跟在 19 后面的 99 的實例匹配。此構造不會回溯。
(?<!X) 零寬度負后發斷言。僅當子表達式 X 不在此位置的左側匹配時才繼續匹配。例如，(?<!19)99 與不跟在 19 后面的 99 的實例匹配

舉例：

上面都是理論性的介紹，這里就使用一些例子來說明一下問題：

   1、測試匹配性   (?<!4)56(?=9) 這里的含義就是匹配后面的文本56前面不能是4，后面必須是9組成。因此，可以匹配如下文本 5569 ，與4569不匹配。

2 、提取字符串   提取 da12bka3434bdca4343bdca234bm   提取包含在字符a和b之間的數字，但是這個a之前的字符不能是c,b后面的字符必須是d才能提取。

        例如這里就只有3434這個數字滿足要求。那么我們怎么提取呢？

       首先我們寫出提取這個字符串的表達式： (?<!c)a("d+)bd 這里就只有一個捕獲組("d+)

       JAVA代碼片段如下：

Pattern p = Pattern.compile("(?<!c)a(""d+)bd");
Matcher m = p.matcher("da12bca3434bdca4343bdca234bm");
while(m.find()){
   System.out.println(m.group(1)); //我們只要捕獲組1的數字即可。結果 3434
   System.out.println(m.group(0)); // 0組是整個表達式，看這里，并沒有提煉出(?<!c)的字符。結果 a3434bd
}
    可以看到，非捕獲組，最后是不會返回結果的，因為它本身并不捕獲文本。

正則表達式功能其實非常強大，這里只是對高級用法的簡單探討。有興趣的朋友和本人共同討論。

posted on 2010-01-06 10:14 單飛閱讀(1130) 評論(0) 編輯收藏所屬分類: java

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: 微同商城使用私庫解決打包編譯問題 hornetq could not obtain connection to any of these urls localhost 1099 jboss linux 環境下tomcat啟動失敗問題 android 使用ssh2協議登陸服務器客戶端監控Hornetq消息數目--monitor hornetq message count velocity 字符串相加【原創】系統宕機導致flare db 因為臨時文件flare.xml 損壞不能啟動故障排除記錄 Aspose.Words.jdk16.jar ccccccccccccccc 把字符串第一個字母大寫封裝jre安裝程序

9910

公告

常用鏈接

留言簿(11)

我參與的團隊

隨筆分類

隨筆檔案

文章檔案

相冊

eclipse

Tapestry

tools

workflow

程序

搜索

最新評論

閱讀排行榜