在荷兰语抓取的内容中添加分隔符

时间:2016-12-02 07:36:04

标签: web-crawler nutch

我正在尝试从抓取的内容中获取特定信息。由于nutch将网站的整个文本全部放在一起,因此我很难获得特定内容。我想为我在弹性搜索中编制索引的已爬网文本内容添加分隔符。

例如从http://example.com/抓取数据时,在弹性搜索中索引的数据是


Example Domain Example Domain This domain is established to be used for illustrative examples in documents. You may use this domain in examples without prior coordination or asking for permission. More information...

我希望它的格式为


Example Domain | Example Domain | This domain is established to be used for illustrative examples in documents. You may use this domain in examples without prior coordination or asking for permission. | More information...

我们可以在nutch配置中的某个地方定义这个分隔符吗?

1 个答案:

答案 0 :(得分:0)

基本上您想要的是将分隔的字段存储在网页的不同部分,例如,您希望产品页面在不同字段中具有价格,评级,描述的ecomerce网站。在Nutch 1.x中,这是通过编写一个自定义插件来完成的,该插件可以解析所获取的内容。

您的插件需要实现HtmlParseFilter接口和IndexingFilter,然后在Solr / ES中定义字段/映射。

如果您要编写自定义插件,请查看允许您提取hN标记的headings插件。

另一种可能性是查看https://issues.apache.org/jira/browse/NUTCH-1870,它将允许您指定要提取指定xpath表达式的内容。