锘??xml version="1.0" encoding="utf-8" standalone="yes"?>亚洲avav天堂av在线网毛片,国产精品亚洲色婷婷99久久精品,亚洲国产精品综合久久20http://m.tkk7.com/rainsf/archive/2007/04/27/114022.html灝忛奔灝忛奔Fri, 27 Apr 2007 03:09:00 GMThttp://m.tkk7.com/rainsf/archive/2007/04/27/114022.htmlhttp://m.tkk7.com/rainsf/comments/114022.htmlhttp://m.tkk7.com/rainsf/archive/2007/04/27/114022.html#Feedback0http://m.tkk7.com/rainsf/comments/commentRss/114022.htmlhttp://m.tkk7.com/rainsf/services/trackbacks/114022.html      浠婂ぉ灝忚瘯浜嗕竴涓婲utch-0.9,絎旇濡備笅錛?br>      
1銆佽В鍘婲utch鍖咃紝鍦∟utch鏍圭洰褰曚笅寤虹洰褰晆rls,閲岄潰寤轟竴浜涘寘鍚玌RL鐨勬枃鏈urlt.txt錛屼竴琛屼竴涓猆RL,鍐呭濡傦細http://m.tkk7.com
http://www.javaeye.com/


2銆佷慨鏀筩onf鐩綍涓嬬殑crawl-urlfilter.txt,鐗囨柇濡備笅錛?br># accept hosts in MY.DOMAIN.NAME
# +^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
+^http://m.tkk7.com/
+^http://www.javaeye.com/
+^http://lucene.apache.org/

3銆佷慨鏀筩onf鐩綍涓嬬殑nutch-site.xml錛屽唴瀹瑰涓嬶細
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>

    
<property>
      
<name>http.agent.name</name>
      
<value>Nutch</value>
      
<description>HTTP 'User-Agent' request header. MUST NOT be empty - 
      please set this to a single word uniquely related to your organization.

      NOTE: You should also check other related properties:

        http.robots.agents
        http.agent.description
        http.agent.url
        http.agent.email
        http.agent.version

      and set their values appropriately.

      
</description>
    
</property>

    
<property>
      
<name>http.robots.agents</name>
      
<value>Nutch,*</value>
      
<description>The agent strings we'll look for in robots.txt files,
      comma-separated, in decreasing order of precedence. You should
      put the value of http.agent.name as the first agent name, and keep the
      default * at the end of the list. E.g.: BlurflDev,Blurfl,*
      
</description>
    
</property>

    
<property>
      
<name>http.agent.description</name>
      
<value>Nutch Search Engineer</value>
      
<description>Further description of our bot- this text is used in
      the User-Agent header.  It appears in parenthesis after the agent name.
      
</description>
    
</property>

    
<property>
      
<name>http.agent.url</name>
      
<value>http://lucene.apache.org/nutch/bot.html</value>
      
<description>A URL to advertise in the User-Agent header.  This will 
       appear in parenthesis after the agent name. Custom dictates that this
       should be a URL of a page explaining the purpose and behavior of this
       crawler.
      
</description>
    
</property>

    
<property>
      
<name>http.agent.email</name>
      
<value>nutch-agent@lucene.apache.org</value>
      
<description>An email address to advertise in the HTTP 'From' request
       header and User-Agent header. A good practice is to mangle this
       address (e.g. 'info at example dot com') to avoid spamming.
      
</description>
    
</property>

</configuration>

娉ㄦ剰錛氬湪nutch-0.9.jar閲岄潰宸插寘鍚玭utch-site.xml錛?nbsp; conf鐩綍涓嬬殑鏂囦歡閮藉鍒惰繃鍒癱lasspath鏍逛笅錛屽鏋滄槸鍦╓EB鐜涓嬭繍琛宑lasspath涓嬬殑nutch-site.xml浼氫紭鍏堝姞杞斤紝濡傛灉鍦ㄥ湪Application鐜榪愯錛屽簲鎶婂涓妌utch-site.xml鎵撳叆鍒皀utch-0.9.jar鍖呴噷錛屽惁鍒欙紝涓婇潰鐨勪竴浜涘睘鎬т負絀轟笉鑳借繍琛屻?br>

4銆佸湪Windows涓嬭繍琛孨utch錛屽緢綆鍗曪紝鍙浣犺兘鎵цCrawl榪欎釜綾誨氨琛岋紝鍐欎竴涓狝nt鑴氭湰鏀懼湪Nuthc鐨勬牴鐩綍涓嬫墽琛屽畠灝監K錛屽唴瀹瑰涓嬶細
<project name="nutch-crawl" default="crawl" basedir=".">
    
    
<property name="lib.dir"  location="lib"/>
    
<property name="conf.dir"  location="conf"/>
    

    
<path id="project.classpath">
        
<fileset dir="." includes="nutch-*.jar"/>
        
<fileset dir="lib" />
        
<pathelement path="."/>
        
<pathelement path="${conf.dir}"/>
    
</path>
    
    
    
<target name="crawl" >
        
<echo>crwaling starting</echo>
        
<property name="JVM.extra.args" value="-Xmx512m" />
        
<java classname="org.apache.nutch.crawl.Crawl" classpathref="project.classpath" fork="true">
            
<jvmarg line="${JVM.extra.args}"/>
            
<arg value="C:/dev-tools/nutch-0.9/urls"/>
            
<arg value="-dir"/>
            
<arg value="C:/dev-tools/nutch-0.9/crawl"/>
            
<arg value="-depth"/>
            
<arg value="3"/>
            
<arg value="-threads"/>
            
<arg value="15"/>
        
</java>
        
<echo>crwaling finished</echo>
    
</target>
    
</project>

鑷蟲錛屽鏃犳剰澶栵紝Nutch宸茬粡嬈㈠揩鍦拌繍琛岃搗鏉ワ紝鏈鍚庡湪crawl鐩綍涓嬩綘浼氬彂鐜頒綘鎯寵鐨勪笢瑗匡紝Enjoy it!

灝忛奔 2007-04-27 11:09 鍙戣〃璇勮
]]>
主站蜘蛛池模板: 久久久久成人片免费观看蜜芽| 日韩成人精品日本亚洲| 免费萌白酱国产一区二区三区| 亚洲欧洲精品成人久久奇米网 | 一级毛片aa高清免费观看| 国产真人无遮挡作爱免费视频| 亚洲码和欧洲码一码二码三码| 午夜视频在线观看免费完整版| 亚洲中文字幕无码一去台湾| 最新猫咪www免费人成| 亚洲小说图区综合在线| 免费无码不卡视频在线观看| 国产亚洲精品精品精品| 亚洲人成电影网站国产精品 | 亚洲无人区午夜福利码高清完整版| 特黄aa级毛片免费视频播放| 亚洲综合另类小说色区色噜噜| 巨胸喷奶水www永久免费| 亚洲av无码一区二区乱子伦as| 无码AV片在线观看免费| 亚洲成年网站在线观看| 免费观看国产精品| 中文字幕在线免费看线人| 亚洲成AV人片在WWW色猫咪| 在线免费观看国产| 亚洲精品色播一区二区| 亚洲综合激情另类专区| 精品无码免费专区毛片| 亚洲国产精品自在自线观看| 亚洲狠狠爱综合影院婷婷| 国产麻豆一精品一AV一免费 | 久久亚洲国产精品五月天婷| 午夜爽爽爽男女免费观看影院| 亚洲av永久无码嘿嘿嘿| 国产三级免费电影| 在线观看免费无码专区| 亚洲综合色区中文字幕| 精品国产亚洲一区二区在线观看| 久久综合给合久久国产免费| 亚洲AV无码成人精品区日韩| 亚洲av无码不卡一区二区三区|