Posted on 2008-07-03 15:31
kooyee 閱讀(738)
評論(1) 編輯 收藏 所屬分類:
C/C++
為了使我的程序能夠不依賴瀏覽器,直接從感興趣Web網(wǎng)頁中抽取信息,
又感到現(xiàn)有的一些庫或解析器龐大而不方便,于是基于pull的方式寫了
一組實用的HTML解析函數(shù)。這樣就可以擺脫瀏覽器,讓自編的軟件方便
地閱讀Web網(wǎng)頁。
經(jīng)過幾年來的使用,發(fā)現(xiàn)能夠用于不少用途,如 Yahoo登錄,尋找股票
保價,瀏覽各種論壇等等。
為了能有機會與有同樣需要和興趣的編程愛好者共同討論提高,我將
陸續(xù)貼出這組解析HTML文檔的實用C函數(shù),如下列表:
void
canonHTML( string & htmltext )
規(guī)范化HTML文檔
void
getHTMLLink( string & obj_url,
const string & htmltext,
UInt32 index,
const string & name )
獲取超鏈接的地址
void
getHTMLObject( string & obj,
const string & htmltext,
const string & tag,
UInt32 tagindex,
UInt32 unpair )
獲取某個tag的內容,含tag本身
void
getHTMLObjectText( string & obj,
const string & htmltext,
const string & tag,
UInt32 tagindex,
UInt32 unpair )
獲取某個tag的內容,不含tag
更多請看:
讓我的C++程序直接閱讀網(wǎng)頁(1) 規(guī)范化HTML文檔