亚洲va在线va天堂va不卡下载,中文字幕乱码亚洲精品一区,亚洲狠狠色丁香婷婷综合

2007年3月2日

Nutch-Crawl: org.apache.nutch.protocol.ProtocolNotFound: protocol not found for url=http

我在Run Nutch的時候出現這樣的錯誤 -

08/07/07 04:05:41 INFO conf.Configuration: found resource crawl-urlfilter.txt at file:/home/hut/installfiles/nutch-0.9/out/production/nutch-0.9/crawl-urlfilter.txt
08/07/07 04:05:41 INFO conf.Configuration: found resource parse-plugins.xml at file:/home/hut/installfiles/nutch-0.9/out/production/nutch-0.9/parse-plugins.xml
08/07/07 04:05:41 INFO fetcher.Fetcher: fetching http://www.yale.edu/
08/07/07 04:05:41 INFO fetcher.Fetcher: fetching http://www.harvard.edu/
08/07/07 04:05:41 INFO fetcher.Fetcher: fetch of http://www.harvard.edu/ failed with: org.apache.nutch.protocol.ProtocolNotFound: protocol not found for url=http
08/07/07 04:05:41 INFO fetcher.Fetcher: fetch of http://www.yale.edu/ failed with: org.apache.nutch.protocol.ProtocolNotFound: protocol not found for url=http

解決方法：nutch-site.xml

    <property>
        <name>plugin.includes</name>
        <value>
            nutch-extensionpoints|protocol-http|urlfilter-regex|parse-(text|html|js)|index-basic|query-(basic|site|url)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)
        </value>
        <description>Regular expression naming plugin directory names to
            include. Any plugin not matching this expression is excluded.
            In any case you need at least include the nutch-extensionpoints plugin. By
            default Nutch includes crawling just HTML and plain text via HTTP,
            and basic indexing and search plugins. In order to use HTTPS please enable
            protocol-httpclient, but be aware of possible intermittent problems with the
            underlying commons-httpclient library.
        </description>
    </property>

nutch-extensionpoints|被我錯誤的刪除了,還原以后一切工作正常. 默認情況下nutch0.9的目錄結構中并沒有plugin.includes這個properties, 它會載入nutch-default.xml里面的plugin.includes所以定義的所有的plugin. 在nutch-site.xml編輯/加入 plugin.includes properties的目的是為了加入我們自己的plugin而覆蓋nutch-default.xml定義的.

posted @ 2008-07-10 11:38 自己的小屋閱讀(2345) | 評論 (0) | 編輯收藏

Nutch-Crawl: ArrayIndexOutOfBoundsException

Nutch0.9 Crawl在Run的時候，有時候會出現 -

java.lang.ArrayIndexOutOfBoundsException: -1

at org.apache.lucene.index.MultiReader.isDeleted(MultiReader.java:113)

at org.apache.nutch.indexer.DeleteDuplicates$InputFormat$DDRecordReader.next(DeleteDuplicates.java:176)

at org.apache.hadoop.mapred.MapTask$1.next(MapTask.java:157)

at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:46)

at org.apache.hadoop.mapred.MapTask.run(MapTask.java:175)

at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:126)

Exception in thread "main" java.io.IOException: Job failed!

at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:604)

at org.apache.nutch.indexer.DeleteDuplicates.dedup(DeleteDuplicates.java:439)

at org.apache.nutch.crawl.Crawl.main(Crawl.java:135)

問題的解決方法:

https://issues.apache.org/jira/browse/NUTCH-525?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel#action_12515955

posted @ 2008-07-10 11:32 自己的小屋閱讀(621) | 評論 (0) | 編輯收藏

定位Java類中的每個方法在類文件中的位置(終結篇)

那是2007年三月二日,我發了<定位Java類中的每個方法在類文件中的位置>
引起了幾個大蝦的注意并且給我指點，當時看了以后也沒有怎么弄，也不知道怎么弄.

這是cape給我的建議：

最直接的辦法應該是分析class的bytecode,找到每個Method_info->Code Attribute->LineNumberTable Attribute

今天空閑得慌而是我拿這個method linenumber幾個keyword在網上狂搜了一把，
http://www.ibm.com/developerworks/cn/java/j-dyn0302/index.html

得到美文一篇，用Javassist來做. Javassist是一個專門操控java class的bytecode的類，可以動態的改變其狀態，我沒有深究它到底有多大的能耐，有興趣可以去它的官方網站看看,

http://www.csg.is.titech.ac.jp/~chiba/javassist/

但是它確實可以象cape指點的那樣，讓我實現對java類中的每個方法的定位(得到類中的某個方法的lineRange)

而是我就隨便翻了幾個例子以后根據在線文檔寫了不到100行代碼輕松搞定。:) 我高興啊。

干這個事情的兩個java的source code可以從這里得到:

http://m.tkk7.com/Files/xmp123/MethodParser.zip

代碼很簡單，我就不解釋代碼了。

這是示例結果：
------------------------------------------------------------------------------------------------------------------------------
Analyzing net.blogjava.xmp123.MyMethodInfo ...
net.blogjava.xmp123.MyMethodInfo.getLineList() locate between 56 and 56

net.blogjava.xmp123.MyMethodInfo.updateLineList() locate between 63 and 80

net.blogjava.xmp123.MyMethodInfo.addLineToLineList(int) locate between 87 and 89

net.blogjava.xmp123.MyMethodInfo.setLineList(java.util.List) locate between 95 and 97
...
------------------------------------------------------------------------------------------------------------------------------

希望這東西有用......

posted @ 2007-08-15 17:56 自己的小屋閱讀(1147) | 評論 (0) | 編輯收藏

定位Java類中的每個方法在類文件中的位置.

摘要: 閱讀全文

posted @ 2007-03-12 15:40 自己的小屋閱讀(2271) | 評論 (9) | 編輯收藏

如何備份MySql的數據庫

應該說一般的數據庫都有BackUp的需求, MySql備份數據庫的方式很簡單, 但是在網上說得云里霧里, 也應該是我對MySql數據庫不熟悉.

目標(Target) : 將本機中的mysql數據庫備份到本機中的mydatabase數據庫中 - 也就是完全的Copy一個數據庫.

#1. C:\Program Files\MySQL\MySQL Server 5.0\bin>mysqldump -u root -p mysql>backup_database.sql

??? Enter password: ******** (你的root帳戶的密碼)

完成以后, 在路徑C:\Program Files\MySQL\MySQL Server 5.0\bin下面就有個backup_database.sql的數據庫文件產生,

#2. root登陸Mysql的Client, 建立目標數據庫mydatabase,

#3. C:\Program Files\MySQL\MySQL Server 5.0\bin>mysql -u root -p yourdatabase<backup_database.sql

????Enter password: ******** (你的root帳戶的密碼)

#4. Completed, (登陸到mysql的Client,用show tables命令檢查yourdatabase里面的結構和表是不是和mysql數據庫中的結構和表一模一樣.

Thanks,

-Wanglinghua

posted @ 2007-03-02 09:07 自己的小屋閱讀(9182) | 評論 (11) | 編輯收藏

常用鏈接

留言簿(4)

隨筆檔案

搜索

最新評論

閱讀排行榜

評論排行榜