在抓取过程中获取java.net.UnknownHostException(使用nutch 1.4)

时间:2012-03-04 12:22:55

标签: fetch nutch web-crawler

我有一个内部有很多外部链接的链接,当提取过程开始时,很多外部链接都失败了:java.net.UnknownHostException,我使用nutch 1.4并且我在nutch-site.xml中设置了以下设置,是这有什么误配?

 <property>
        <name>parser.timeout</name>
        <value>30</value>       
    </property>
    <property>
        <name>db.fetch.interval.default</name>
        <value>36000</value>       
    </property>
    <property>
        <name>db.ignore.external.links</name>
        <value>false</value>        
    </property>
    <property>
        <name>http.timeout</name>
        <value>30000</value>       
    </property>
    <property>
        <name>db.max.outlinks.per.page</name>
        <value>-1</value>
    </property>
    <property>
        <name>db.fetch.interval.max</name>
        <value>7776000</value>        
    </property>
   <property>
        <name>fetcher.threads.fetch</name>
        <value>10</value>  
   </property> 

0 个答案:

没有答案