在HDFS中编写MetaData

时间:2011-01-07 11:52:21

标签: hadoop nutch indexer

我们正在使用nutch来抓取我们的内部网站。

我们在索引阶段(我们修改了indexer.java的代码)中提取了xml文件中的元数据,当在本地模式下运行时,它为我们提供了所需的元数据。

现在,我们考虑在集群模式下使用nutch(使用hadoop),当我们在集群中抓取nutch时,我们能够获取索引但不能获得我们之前获得的元数据,在我们使用的本地模式中(java的IO类将meta写入文件)。对于hadoop,我们已将其更改为hadoop文件系统io类。然而,我们无法得到元。

有没有解决方案,或者我们遗漏了什么?

提前致谢, 地理位置

1 个答案:

答案 0 :(得分:1)

  

我们在索引阶段(我们修改了indexer.java的代码)中提取了xml文件中的元数据,当在本地模式下运行时,它为我们提供了所需的元数据。

修改索引器不是最好的选择,如您遇到的问题所示

你可以:

  • 添加元数据作为注入的一部分(如果您只想为种子执行此操作)
  • 或编写自定义索引插件:例如让它从conf /
  • 中的文件加载XML md

conf /的内容被添加到作业文件中,并分布在群集的节点上。代码中有很多索引插件的例子。

也许您应该使用Nutch用户列表来吸引更多受众?