应用错误收集

如何在apache nutch中更新crawldb中的获取状态？

时间：2016-04-17 07:19:55

标签： apache web-crawler nutch

我使用apache nutch进行网络爬行.....我已经进行了两轮。它生成了一个爬行数据库，包含21个url作为获取状态，537 url作为未获取状态。我想更新抓取中crawldb中所有链接的状态，因为某些原因。有没有办法更新状态？

1 个答案:

答案 0 :(得分：0)

我找到了回答我的问题并希望与大家分享。在获取两轮之后，我已使用命令＆bin; / bin / nd2更新数据库＆bin; / bin; $ s;＆＃39;。然后，数据库将使用新网址进行更新，状态为“未获取”状态＆＃39;。但是如果＆＃39; bin / nutch updatedb crawl / crawldb $ s2 -noAdditions＆＃39;，则不会向数据库中添加新的网址，并将已存在的网址状态设置为＆＃39; fetched＆＃39;。

hadoop1.0.3＆amp; nutch1.5.1无法更新crawlDB
如何在nutch中合并两个crawldb
将元数据添加到Crawldb转储
在eclipse中运行nutch1.9得到错误CrawlDb更新：java.io.IOException：作业失败
如何在apache nutch中更新crawldb中的获取状态？
bin / nutch注入crawl / crawldb url无法正常工作
Nutch评分如何影响CrawlDB中现有网址的得分？
如何或在何处运行$ ./nutch注入crawl / crawldb网址
如何从NUTCH数据库（CrawlDB）中删除/删除未获取的URL
Apache Nutch 1.x注入抓取错误

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？