hadoop - 如何在分布式模式下运行apache nutch

如何在分布式模式下运行apache nutch

时间：2015-09-24 04:45:59

标签： hadoop web-crawler nutch

我正在使用Apache Nutch 2.3。我有一个由4个Hadoop（1.2.1）节点组成的小集群。我正在运行Crawler的一个实例。它每天爬行约30k-50k页。我每天必须抓取更多页面（假设价值大约是100万）。我从Nutch的FAQ中尝试过不同的问题。但爬行的文件无法增加。我想我应该在完全分布式模式下运行Nutch（我希望Nutch的完全分布式模式运行多个实例）。

我的问题的解决方案是什么？

1 个答案:

答案 0 :(得分：0)

通常，您应该增加topN值并将<name>http.content.limit</name>（在nutch-site.xml中）的值设置为 -1

无法在Nutch部署模式下运行fetcher作业
如何运行nutch的多个实例？
如何在分布式模式下运行apache nutch
如何在apache nutch中获取webgraph？
如何在生产环境中运行nutch
如何在开发模式下运行超集
如何在以伪分布式模式安装的Hadoop中运行Nutch
进样器作业卡在分布式模式下，但在本地模式下运行
运行kafka connect分布式模式时已使用的地址
关于在部署模式下运行Nutch 2.0的信息吗？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？