我的目标是 - 抓住网址和 - 提取微观数据和 - 保存到solr
我使用这个guide来设置nutch,hbase和solr
我正在使用nutch抓取网址和hbase,我正在使用tika pluggin for nutch来解析网页,但它只获取元数据。
我错过了配置的内容吗?请指导我或建议替代方案
答案 0 :(得分:1)
您需要实现自己的ParseFilter并在那里实现提取逻辑。您将获得由Tika解析器生成的DocumentFragment,并且可以使用例如XPath获取微观数据。
请注意,Tika生成的DOM经过严格规范化/修改,因此您的Xpath表达式可能无法匹配。也许更好地依赖旧的HTML解析器。
一种通用的方法是使用Apache Any23,例如在this storm-crawler module中完成。
BTW Tika中的MicroDataHandler有一个open JIRA尚未提交。
HTH