在apache nutch上使用apache tika插件解析微数据

时间:2015-11-11 13:42:13

标签: solr hbase nutch microdata apache-tika

我的目标是 - 抓住网址和 - 提取微观数据和 - 保存到solr

我使用这个guide来设置nutch,hbase和solr

我正在使用nutch抓取网址和hbase,我正在使用tika pluggin for nutch来解析网页,但它只获取元数据。

我错过了配置的内容吗?请指导我或建议替代方案

1 个答案:

答案 0 :(得分:1)

您需要实现自己的ParseFilter并在那里实现提取逻辑。您将获得由Tika解析器生成的DocumentFragment,并且可以使用例如XPath获取微观数据。

请注意,Tika生成的DOM经过严格规范化/修改,因此您的Xpath表达式可能无法匹配。也许更好地依赖旧的HTML解析器。

一种通用的方法是使用Apache Any23,例如在this storm-crawler module中完成。

BTW Tika中的MicroDataHandler有一个open JIRA尚未提交。

HTH