使用nutch解析打开的图形标签(进入ElasticSearch)

时间:2016-12-19 16:56:09

标签: nutch apache-tika

我有一个正在运行的nutch 2.3.1 / hbase安装,可以很好地解析/索引网页。现在我需要解析打开的图形标签(即og:image,og:description)。从网上发现的几个片段中我了解到tika基本上支持解析开放图形标签,但我想知道如何将其整合到nutch中。

有人能指出我正确的方向吗?也许是一个例子?

由于

0 个答案:

没有答案