我们正在使用nutch来抓取我们的内部网站。
我们在索引阶段(我们修改了indexer.java的代码)中提取了xml文件中的元数据,当在本地模式下运行时,它为我们提供了所需的元数据。
现在,我们考虑在集群模式下使用nutch(使用hadoop),当我们在集群中抓取nutch时,我们能够获取索引但不能获得我们之前获得的元数据,在我们使用的本地模式中(java的IO类将meta写入文件)。对于hadoop,我们已将其更改为hadoop文件系统io类。然而,我们无法得到元。
有没有解决方案,或者我们遗漏了什么?
提前致谢, 地理位置
答案 0 :(得分:1)
我们在索引阶段(我们修改了indexer.java的代码)中提取了xml文件中的元数据,当在本地模式下运行时,它为我们提供了所需的元数据。
修改索引器不是最好的选择,如您遇到的问题所示
你可以:conf /的内容被添加到作业文件中,并分布在群集的节点上。代码中有很多索引插件的例子。
也许您应该使用Nutch用户列表来吸引更多受众?