Nutch Parser插件收集联系信息

时间:2016-02-09 18:43:14

标签: plugins nutch

我正在开展一个项目,需要识别公司网站上的联系点,并用于增强安全性。

现在,我设法使用Apache Nutch来抓取几轮网站。下一步将解析HTML页面并找到联系信息的位置。在这种情况下,我只对电子邮件地址和电话号码感兴趣....

以下是我打算做的事情,我们可以编写一个map reduce作业来解析HTML文件,并使用Jsoup / Beautifulsoup HTML解析器组合中的正则表达式来查找正则表达式。

但是,我想知道是否有任何解析器插件已经实现并且可能已经过测试用于此目的?

1 个答案:

答案 0 :(得分:0)

您不需要编写自定义地图缩减作业。只需实现一个定制的HTMLParseFilter,如果你想要正则表达式,它将为你提供一个DOM来在文档文本上运行XPath表达式。

几年前为客户做过类似工作后,我发现有很多页面实现了schema.org。您可以使用Xpath编写自定义HTMLParse过滤器,以从微数据中提取标准化信息。您可以查看StormCrawler的microdata parser作为如何利用Apache Any23提取微数据的示例。

如果您需要更多NLP密集型方法,可以使用Behemoth使用Apache UIMA或GATE等工具处理Nutch段。

HTH