nutch解析自定义xml与tika使用xpath

时间:2013-12-20 12:53:52

标签: nutch apache-tika

我是新来的荷兰人。 nutch 1.7 我正在寻找基于xpath解析自定义xml文件的方法并存储数据。我确实看到了xml_parser插件,但是因为tika接管了这个插件。 如何配置嵌入在nutch 1.7中的tika来解析基于xpath的url内容。我搜索了所有nutch文档/维基,但那里没有太多信息。 tika尝试解析并提取因自定义格式而失败的内容,但我想在xml中存储基于xpath的标记。我应该在哪里把xpath信息放在nutch conf中?或者我是否必须覆盖tike解析器?

对正确方向的任何提示都非常赞赏。

感谢。

1 个答案:

答案 0 :(得分:0)

我不认为您可以使用tika轻松完成此操作,但您可以使用这些自定义插件来解析基于xpath的xml文件: