应用错误收集

Nutch作为具有定制处理管道的备用蜘蛛

时间：2019-03-21 21:26:41

标签： hadoop web-crawler nutch

我想将Apache Nutch用作蜘蛛，仅获取给定的URL列表（不进行爬网）。这些网址将存储在Redis中，我希望Nutch不断从列表中弹出它们并获取html。蜘蛛程序需要处于待机模式-它总是等待新的URL进入Redis，直到用户决定停止作业为止。另外，我想将自己的处理管道应用于提取的html文件（不仅是文本提取）。 Nutch有可能吗？

1 个答案:

答案 0 :(得分：1)

StormCrawler更适合实现这一目标-它旨在满足您所描述的场景。您需要编写一个自定义喷嘴以连接到Redis，重用fetcher和parser螺栓，然后在您自己的处理中添加螺栓。 SC的一些早期用户正是这样做的

如何在nuch搜索引擎中创建自定义字段？
独立的Zend Form带有自定义元素
一步一步运行apache Nutch 2.2.1
nutch解析自定义xml与tika使用xpath
Java独立应用程序作为Spring的计划任务执行程序
如何将Nutch 2.3中的图像作为HBase作为后端进行爬行？
Nutch：输入url被nutch parsechecker修改
Nutch给出java.lang.UnsupportedOperationException：未由DistributedFileSystem FileSystem实现实现
导出为独立应用程序
Nutch作为具有定制处理管道的备用蜘蛛

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？