我想将Apache Nutch用作蜘蛛,仅获取给定的URL列表(不进行爬网)。这些网址将存储在Redis中,我希望Nutch不断从列表中弹出它们并获取html。蜘蛛程序需要处于待机模式-它总是等待新的URL进入Redis,直到用户决定停止作业为止。另外,我想将自己的处理管道应用于提取的html文件(不仅是文本提取)。 Nutch有可能吗?
答案 0 :(得分:1)
StormCrawler更适合实现这一目标-它旨在满足您所描述的场景。您需要编写一个自定义喷嘴以连接到Redis,重用fetcher和parser螺栓,然后在您自己的处理中添加螺栓。 SC的一些早期用户正是这样做的