亚洲一级Av无码毛片久久精品,亚洲日本va在线观看,一本久久a久久精品亚洲

sed多行匹配

在你抓取到的html文件，如果想查找并選出一個(gè)標(biāo)簽間的內(nèi)容的話，就需要使用多行匹配。這一點(diǎn)上grep不能提供此功能。所以就可以使用sed的多行匹配功能。
比如，你想選出
<html>
<body>
<div class="info">
......
......
</div>

</body>
</html>

兩個(gè)div標(biāo)簽之間的內(nèi)容。
可以用下面的方法

  $ sed -n -e '/<div>/p' -e '/<div class=\"info\">/,/<\/div>/p' *.html >  all.html

以上方法參考自此文章http://www.fwolf.com/blog/post/346，這篇文章寫(xiě)得很好。

以下內(nèi)容均引自上述文章。

Update @ 2007-12-14

在和bxy討論的過(guò)程中，又發(fā)現(xiàn)sed的另外一種用途，從html或xml中按照tag對(duì)應(yīng)關(guān)系，篩選打印出指定的tag內(nèi)容，使用了正則中的p命令，好像默認(rèn)就沒(méi)有“不能處理多行內(nèi)容”以及“貪婪性”的問(wèn)題，很好用，很強(qiáng)大：

    $ sed -n -e '/<title>/p' -e '/<text /,/<\/text>/p' from.xml

注意/<\/text>/不在同一行的時(shí)候才好用，不然會(huì)匹配到下一個(gè)實(shí)例出現(xiàn)的位置作為結(jié)束邊界。

|----------------------------------------------------------------------------------------|
版權(quán)聲明版權(quán)所有 @zhyiwww
引用請(qǐng)注明來(lái)源 http://m.tkk7.com/zhyiwww
|----------------------------------------------------------------------------------------|

posted on 2009-10-29 18:10 zhyiwww 閱讀(8444) 評(píng)論(0) 編輯收藏所屬分類: linux

常用鏈接

留言簿(33)

隨筆分類(626)

朋友的博客

最新隨筆

搜索

積分與排名

最新評(píng)論

閱讀排行榜

評(píng)論排行榜

Update @ 2007-12-14


只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問(wèn) 管理
相關(guān)文章: ubuntu上安裝repo 禪道PDO_MySQL擴(kuò)展的安裝 apache+subversion+ssl配置 tar打包時(shí)排除一些文件或者目錄 find僅列某一級(jí)目錄的內(nèi)容 linux查看目錄大小紅帽5.4企業(yè)版上yum的安裝和配置 Shell腳本執(zhí)行時(shí)出現(xiàn)declare: not found的解決方法 Shell把字符串聲明成變量 Ubuntu下修改PDF默認(rèn)打開(kāi)程序