我的畢設(shè)題目是“基于able的互聯(lián)網(wǎng)分布式主題搜索技術(shù)研究”,重點研究了搜索引擎的兩個重要組成部分:網(wǎng)絡(luò)信息的搜索和網(wǎng)頁信息的抽取。所要設(shè)計實現(xiàn)的專利信息采集抽取系統(tǒng)可以讓我們及時地了解某類專利在一定時期的發(fā)展?fàn)顩r,它是一個主題搜索引擎系統(tǒng),包括專利網(wǎng)頁抓取和專利信息抽取兩個子系統(tǒng)。在專利網(wǎng)頁抓取子系統(tǒng)中,利用網(wǎng)絡(luò)爬行器,使用JSP腳本語言實現(xiàn)了原型系統(tǒng)的后端,即專利數(shù)據(jù)庫的選擇、查詢結(jié)果的返回以及網(wǎng)頁源文件的自動下載。在專利信息抽取子系統(tǒng)中,通過XML處理器和JTidy工具生成DOM樹,利用XSLT樣式表和XPath語句將下載到本地的HTML源文件轉(zhuǎn)換成XML文件,從中進(jìn)行專利信息的提取,然后通過Oracle JDBC驅(qū)動進(jìn)行入庫操作,最后利用IBM的able分布式軟件平臺將各種算法封裝成Agent,以供將來的分布式運行。只要對信息源進(jìn)行足夠的分析工作,此系統(tǒng)可以應(yīng)用在其它一些行業(yè)領(lǐng)域中,如股票價格查詢、新聞信息搜索等等。我的系統(tǒng)還有許多不成熟的地方,歡迎有這方面經(jīng)驗的人與我一起探討共勉!
qq:173635235
msn:bisal1130@yahoo.com.cn
emails:bill1130@gmail.com & bill15@tom.com