如何索引nutch中的所有元标记

时间:2014-10-17 22:30:50

标签: solr nutch

我安装了Nutch 1.9并将其配置为使用Solr 4.10.1成功抓取。我正在尝试将Nutch设置为索引元数据,如此处所述https://wiki.apache.org/nutch/IndexMetatags

如何将其设置为索引网站上的所有元数据?我将metatags.names的值设置为*像这样

<property>
    <name>metatags.names</name>
    <value>*</value>
    <description>Names of the metatags to extract, separated by ','. Use '*' to extract all metatags. Prefixes the names with 'metatag.' in the parse-metadata. For instance to index description and keywords, you need to activate the plugin index-metadata and set the
    value of the parameter 'index.parse.md' to 'metatag.description,metatag.keywords'.
    </description>
</property>

但我不确定如何设置index.parse.md的值而不列出单个元标记名称。我试过这个

<property>
    <name>index.parse.md</name>
    <value>meta*</value>
    <description>Comma-separated list of keys to be taken from the parse metadata to generate fields. Can be used e.g. for 'description' or 'keywords' provided that these values are generated by a parser (see parse-metatags plugin)
    </description>
</property>

但运行

时不会显示任何元数据

bin/nutch indexchecker http://nutch.apache.org/

我确信该网站上有元数据,因为它在运行

时返回解析元数据

bin/nutch parsechecker http://nutch.apache.org/

任何帮助将不胜感激!感谢

1 个答案:

答案 0 :(得分:0)

插件索引元数据不会那样工作。你必须在那里指定完整的名称,例如&#34; metatag.keywords&#34;

另外&#34; metatags.names&#34;价值&#34; &#34;不是真正的通配符。你不能把类似&#34; meta &#34;那里也是。