应用错误收集

Nutch没有抓取seed.txt中指定的url

时间：2015-03-24 16:50:49

标签： solr lucene nutch

我刚安装了与solr集成的nutch并开始爬行。但是我在seed.txt nutch中指定的url并没有立即抓取这些url。它注入了我之前给出的旧网址，但现在它们被注释掉了。看起来nutch正在以某种奇怪的顺序注入网址。是什么原因。也可以任何人指导我任何书籍或关于荷兰语的详细教程，因为大多数教程都只是安装。

1 个答案:

答案 0 :(得分：0)

正如an answer中针对类似问题所述，旧网址仍在Nutch的crawldb中。

您可以完全像this user did那样核对以前的游戏并重新开始，或者您可以通过CrawlDbMerger以不同的方式删除不需要的网址：

CLI通过bin/nutch mergedb
CLI通过bin/nutch updatedb

Nutch：在一定深度内抓取每个网址
Nutch更改seed.txt不起作用
nutch crawl不使用seed.txt中的所有条目
使用Nutch进行爬网时出错 - 输入路径不存在：hdfs：//.../urls/seed.txt
Nutch的增量爬行
Nutch没有抓取seed.txt中指定的url
Nutch没有抓取除了seed.txt中指定的URL之外的URL
在solr 6.4.1中抓取一个URL
Apache Nutch Web爬网的种子URL
Nutch甚至对父级网址进行爬网，甚至指定了网址过滤器

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？