应用错误收集

在apache nutch上使用apache tika插件解析微数据

时间：2015-11-11 13:42:13

标签： solr hbase nutch microdata apache-tika

我的目标是 - 抓住网址和 - 提取微观数据和 - 保存到solr

我使用这个guide来设置nutch，hbase和solr

我正在使用nutch抓取网址和hbase，我正在使用tika pluggin for nutch来解析网页，但它只获取元数据。

我错过了配置的内容吗？请指导我或建议替代方案

1 个答案:

答案 0 :(得分：1)

您需要实现自己的ParseFilter并在那里实现提取逻辑。您将获得由Tika解析器生成的DocumentFragment，并且可以使用例如XPath获取微观数据。

请注意，Tika生成的DOM经过严格规范化/修改，因此您的Xpath表达式可能无法匹配。也许更好地依赖旧的HTML解析器。

一种通用的方法是使用Apache Any23，例如在this storm-crawler module中完成。

BTW Tika中的MicroDataHandler有一个open JIRA尚未提交。

HTH