Skynet

---------- ---------- 我的新 blog : liukaiyi.cublog.cn ---------- ----------

:: 管理

112 Posts :: 1 Stories :: 49 Comments :: 0 Trackbacks

數據：
希望抓取
div > p id='da' > a text
和 div > p id='da' > html

<div>
   <p id="tt">
     <a href=/tag/php>no no</a>
  </p>
  <p id='da'>
    <a href=/tag/php>php</a>
    <a href=/tag/python>python</a>
    <a href=/tag/vim>vim</a>
    <a href=/tag/windows>windows</a>
   <a href=/tag/wingide>wingide</a>
  </p>
</div>
<p id='da'>
   <a href=/tag/wingide>hehe</a>
</p>

希望結果為

$ python t.py
a_text: ["'php'", "'python'", "'vim'", "'windows'", "'wingide'"]

div_html[0]:
<p id="da">
    <a href="/tag/php">php</a>
    <a href="/tag/python">python</a>
    <a href="/tag/vim">vim</a>
    <a href="/tag/windows">windows</a>
   <a href="/tag/wingide">劉凱毅</a>
  </p>

#說明
其實 SGMLParser 我感覺最關鍵的是

#/usr/lib/python2.5/sgmllib.py
# Internal -- finish parsing of <tag/data/ (same as <tag>data</tag>)
    def finish_shorttag(self, tag, data):
        #而 finish_starttag finish_endtag 抓取會調用 end_* start_* 什么的
        self.finish_starttag(tag, [])
        self.handle_data(data)
        self.finish_endtag(tag)

代碼：

#!python
#coding=UTF-8

from sgmllib import SGMLParser
class TestSGMLParser(SGMLParser):

    def reset(self, verbose=0):
        SGMLParser.reset(self)

        #提取 a text ; div html
        self.a_text=[]
        self.div_html=[]

        #寄存變量
        self.data_text = ""
        self.data_html = ""

        #業務邏輯表示變量
        #抓取 div > p id="da" > a
        #由于需要得到div p 的 html > test_div_p = 0 , 1 , 2
        self.test_div=False
        self.test_div_p=0
        self.test_div_p_a=False


    # 重寫 handle_data
    # 寄存變量填充值
    def handle_data(self, data):
            self.data_text = self.data_text + data
        if self.test_div_p :
            self.data_html = self.data_html +data


    # 重寫 finish_starttag
    # self.data_html 填充值
    def finish_starttag(self, tag, attrs):
        SGMLParser.finish_starttag(self, tag, attrs)
        if self.test_div_p :
                strattrs = "".join([' %s="%s"' % (key, value) for key, value in attrs])
                self.data_html=self.data_html+"<%(tag)s%(strattrs)s>" % locals()

    # 重寫 finish_endtag
    # self.data_html 填充值
        def finish_endtag(self, tag):
        SGMLParser.finish_endtag(self, tag)
        if self.test_div_p == 2 :
            self.data_html=self.data_html+"</%(tag)s>" % locals()
        elif self.test_div_p == 1 :
            self.data_html=self.data_html+"</%(tag)s>" % locals()
            self.test_div_p = 0

    # self.test_div 狀態修改
        def start_div(self, attrs):
        self.test_div=True

    # self.test_div 狀態修改
    # self.div_html 填充
        def end_div(self):
        if self.test_div :
            self.div_html.append(self.data_html)
        self.test_div=False

    # self.test_div_p 狀態修改 2 為可以填充
        def start_p(self, attrs):
            if self.test_div and attrs and 'id' in [ key for key, value in attrs ] and  len([ value for key, value in attrs if key=='id' and value=='da'])>0 :
            self.test_div_p=2

    # self.test_div_p 狀態修改 1 為只能填充最后一次
        def end_p(self):
        if self.test_div_p == 2 :
            self.test_div_p=1

        # self.test_div_p_a 狀態修改
        def start_a(self, attrs):
        self.data_text = ""
            if self.test_div_p :
                self.test_div_p_a=True

        # self.test_div_p_a 狀態修改
    # self.a_text 填充
        def end_a(self):
            if self.test_div_p and self.test_div and self.test_div_p_a  :
                    self.a_text.append(repr(self.data_text))
            self.test_div_p_a=False

        def close(self):
            SGMLParser.close(self)

if __name__ == '__main__':
    try:
        f = open('google.html', 'r')
        data = f.read()
        x=TestSGMLParser()
        x.feed(data)
        x.close()
        # 我這 gvim utf8 ; cygwin gbk ,轉碼  unicode( str , 'utf8').encode('gbk')
        print "a_text: %s \n div_html[0]: \n %s"%(x.a_text[:-1],  unicode(x.div_html[0], 'utf8').encode('gbk') )

    except IOError, msg:
        print file, ":", msg

頁面抓取
抓取 pycurl + 分析用 SGMLParser + 驗證碼用 pytesser
下面就差算法了，抓取的準備工作終于要完成了。

整理 m.tkk7.com/Good-Game

posted on 2009-04-07 18:27 劉凱毅閱讀(3662) 評論(0) 編輯收藏所屬分類: python

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: MoinMoin wiki 服務器搭建與嘗試給自己的圖片處理工具 (py2exe) 跟我一起學 - 算法導論 - 快速排序 python pil 使用(轉) shell txt 分析小結跟我一起學 - 算法導論 - 遞歸式理解高斯函數，以及在推薦算法中的應用跟我一起學 - 算法導論 - 插入排序文件存儲 - 數據結構( py ) beanstalkd 消息隊列的第一手資料

Skynet

常用鏈接

留言簿(13)

我參與的團隊

隨筆分類

隨筆檔案

相冊

搜索

最新評論

閱讀排行榜

評論排行榜