<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    小魚的空氣

    記錄我所思

    2007年4月27日

    Nutch 0.9筆記

          一直留意Lucene,Nutch的進(jìn)展,最近這兩個項(xiàng)目都發(fā)展得非常快,Lucne已發(fā)展到 2.1,Nutch已發(fā)展到 0.9,改進(jìn)了很多,令人欣喜。
          今天小試了一下Nutch-0.9,筆記如下:
          
    1、解壓Nutch包,在Nutch根目錄下建目錄urls,里面建一些包含URL的文本如urlt.txt,一行一個URL,內(nèi)容如:http://m.tkk7.com
    http://www.javaeye.com/


    2、修改conf目錄下的crawl-urlfilter.txt,片斷如下:
    # accept hosts in MY.DOMAIN.NAME
    # +^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
    +^http://m.tkk7.com/
    +^http://www.javaeye.com/
    +^http://lucene.apache.org/

    3、修改conf目錄下的nutch-site.xml,內(nèi)容如下:
    <?xml version="1.0"?>
    <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

    <!-- Put site-specific property overrides in this file. -->

    <configuration>

        
    <property>
          
    <name>http.agent.name</name>
          
    <value>Nutch</value>
          
    <description>HTTP 'User-Agent' request header. MUST NOT be empty - 
          please set this to a single word uniquely related to your organization.

          NOTE: You should also check other related properties:

            http.robots.agents
            http.agent.description
            http.agent.url
            http.agent.email
            http.agent.version

          and set their values appropriately.

          
    </description>
        
    </property>

        
    <property>
          
    <name>http.robots.agents</name>
          
    <value>Nutch,*</value>
          
    <description>The agent strings we'll look for in robots.txt files,
          comma-separated, in decreasing order of precedence. You should
          put the value of http.agent.name as the first agent name, and keep the
          default * at the end of the list. E.g.: BlurflDev,Blurfl,*
          
    </description>
        
    </property>

        
    <property>
          
    <name>http.agent.description</name>
          
    <value>Nutch Search Engineer</value>
          
    <description>Further description of our bot- this text is used in
          the User-Agent header.  It appears in parenthesis after the agent name.
          
    </description>
        
    </property>

        
    <property>
          
    <name>http.agent.url</name>
          
    <value>http://lucene.apache.org/nutch/bot.html</value>
          
    <description>A URL to advertise in the User-Agent header.  This will 
           appear in parenthesis after the agent name. Custom dictates that this
           should be a URL of a page explaining the purpose and behavior of this
           crawler.
          
    </description>
        
    </property>

        
    <property>
          
    <name>http.agent.email</name>
          
    <value>nutch-agent@lucene.apache.org</value>
          
    <description>An email address to advertise in the HTTP 'From' request
           header and User-Agent header. A good practice is to mangle this
           address (e.g. 'info at example dot com') to avoid spamming.
          
    </description>
        
    </property>

    </configuration>

    注意:在nutch-0.9.jar里面已包含nutch-site.xml,  conf目錄下的文件都復(fù)制過到classpath根下,如果是在WEB環(huán)境下運(yùn)行classpath下的nutch-site.xml會優(yōu)先加載,如果在在Application環(huán)境運(yùn)行,應(yīng)把如上nutch-site.xml打入到nutch-0.9.jar包里,否則,上面的一些屬性為空不能運(yùn)行。


    4、在Windows下運(yùn)行Nutch,很簡單,只要你能執(zhí)行Crawl這個類就行,寫一個Ant腳本放在Nuthc的根目錄下執(zhí)行它就OK,內(nèi)容如下:
    <project name="nutch-crawl" default="crawl" basedir=".">
        
        
    <property name="lib.dir"  location="lib"/>
        
    <property name="conf.dir"  location="conf"/>
        

        
    <path id="project.classpath">
            
    <fileset dir="." includes="nutch-*.jar"/>
            
    <fileset dir="lib" />
            
    <pathelement path="."/>
            
    <pathelement path="${conf.dir}"/>
        
    </path>
        
        
        
    <target name="crawl" >
            
    <echo>crwaling starting</echo>
            
    <property name="JVM.extra.args" value="-Xmx512m" />
            
    <java classname="org.apache.nutch.crawl.Crawl" classpathref="project.classpath" fork="true">
                
    <jvmarg line="${JVM.extra.args}"/>
                
    <arg value="C:/dev-tools/nutch-0.9/urls"/>
                
    <arg value="-dir"/>
                
    <arg value="C:/dev-tools/nutch-0.9/crawl"/>
                
    <arg value="-depth"/>
                
    <arg value="3"/>
                
    <arg value="-threads"/>
                
    <arg value="15"/>
            
    </java>
            
    <echo>crwaling finished</echo>
        
    </target>
        
    </project>

    至此,如無意外,Nutch已經(jīng)歡快地運(yùn)行起來,最后在crawl目錄下你會發(fā)現(xiàn)你想要的東西,Enjoy it!

    posted @ 2007-04-27 11:09 小魚 閱讀(2101) | 評論 (0)編輯 收藏

    僅列出標(biāo)題  
    <2025年7月>
    293012345
    6789101112
    13141516171819
    20212223242526
    272829303112
    3456789

    導(dǎo)航

    統(tǒng)計(jì)

    常用鏈接

    留言簿(3)

    我參與的團(tuán)隊(duì)

    隨筆檔案

    文章檔案

    搜索

    最新評論

    主站蜘蛛池模板: 无码精品一区二区三区免费视频| 国产亚洲sss在线播放| 国产99久久亚洲综合精品| 免费看国产成年无码AV片| 亚洲中文字幕久久精品无码2021| 50岁老女人的毛片免费观看| 亚洲男人第一av网站| 8090在线观看免费观看| av无码久久久久不卡免费网站| 亚洲精品国产免费| 亚洲香蕉免费有线视频| 亚洲一级高清在线中文字幕| 国色精品卡一卡2卡3卡4卡免费| 亚洲日韩国产精品乱-久| 成人一a毛片免费视频| 国产精品亚洲а∨天堂2021| 亚洲?v女人的天堂在线观看| 久久精品国产亚洲av日韩| 最近在线2018视频免费观看| 亚洲AV无码乱码在线观看代蜜桃| 最近2019中文字幕mv免费看| 美国毛片亚洲社区在线观看| 亚洲一区视频在线播放| 久久精品一区二区免费看| 亚洲国产美女在线观看| 性做久久久久免费看| 国产特黄一级一片免费| 亚洲一卡2卡三卡4卡有限公司| 久久久久久曰本AV免费免费| 亚洲成在人线aⅴ免费毛片| 亚洲日韩国产一区二区三区| 青青草无码免费一二三区| 中文有码亚洲制服av片| 亚洲人成无码网WWW| 亚洲网站免费观看| 男性gay黄免费网站| 久久综合图区亚洲综合图区| 最近免费中文字幕大全| 中文字幕成人免费高清在线视频| 91精品国产亚洲爽啪在线影院 | 精品一卡2卡三卡4卡免费视频|