使用elasticsearch从Apache nutch索引爬行数据?

时间:2015-03-31 08:15:12

标签: elasticsearch ubuntu-14.04 nutch aws-ec2

我在aws ec2 ubuntu实例上有apache nutch 1.7和Elasticsearch 1.4.4。我使用Nutch抓取数据,但我们如何使用elasticsearch索引数据?没有与之相关的官方文档。

2 个答案:

答案 0 :(得分:1)

在配置中启用elasticsearch索引器。将弹性索引器添加到插件linclude属性列表中。见下文:

    <property>
            <name>plugin.includes</name>
            <value>protocol-http|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|indexer-elastic|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
    </property>

答案 1 :(得分:1)

在你的nutch-site.xml中添加以下属性:

<property>
        <name>plugin.includes</name>
        <value>protocol-http|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|indexer-elastic|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
</property>

以上将使elasticsearch成为索引器。 以下是指定elasticsearch的主机

<property>
        <name>elastic.host</name>
        <value>localhost</value>
</property>

您可以设置的其他可选属性是elastic.port,elastic.cluster等。

现在您指定您已经抓取了数据,现在想要将其编入索引,因此您可以使用

./bin/nutch index <crawldb> -dir <segment_dir>

这将索引驻留在段中的所有已爬网数据。您可以检查文档的弹性搜索索引。