应用错误收集

时间：2011-01-07 11:52:21

标签： hadoop nutch indexer

我们正在使用nutch来抓取我们的内部网站。

我们在索引阶段（我们修改了indexer.java的代码）中提取了xml文件中的元数据，当在本地模式下运行时，它为我们提供了所需的元数据。

现在，我们考虑在集群模式下使用nutch（使用hadoop），当我们在集群中抓取nutch时，我们能够获取索引但不能获得我们之前获得的元数据，在我们使用的本地模式中（java的IO类将meta写入文件）。对于hadoop，我们已将其更改为hadoop文件系统io类。然而，我们无法得到元。

有没有解决方案，或者我们遗漏了什么？

提前致谢，地理位置

答案 0 :(得分：1)

我们在索引阶段（我们修改了indexer.java的代码）中提取了xml文件中的元数据，当在本地模式下运行时，它为我们提供了所需的元数据。

修改索引器不是最好的选择，如您遇到的问题所示

你可以：

conf /的内容被添加到作业文件中，并分布在群集的节点上。代码中有很多索引插件的例子。

也许您应该使用Nutch用户列表来吸引更多受众？