我安装了Nutch 1.9并将其配置为使用Solr 4.10.1成功抓取。我正在尝试将Nutch设置为索引元数据,如此处所述https://wiki.apache.org/nutch/IndexMetatags
如何将其设置为索引网站上的所有元数据?我将metatags.names的值设置为*像这样
<property>
<name>metatags.names</name>
<value>*</value>
<description>Names of the metatags to extract, separated by ','. Use '*' to extract all metatags. Prefixes the names with 'metatag.' in the parse-metadata. For instance to index description and keywords, you need to activate the plugin index-metadata and set the
value of the parameter 'index.parse.md' to 'metatag.description,metatag.keywords'.
</description>
</property>
但我不确定如何设置index.parse.md的值而不列出单个元标记名称。我试过这个
<property>
<name>index.parse.md</name>
<value>meta*</value>
<description>Comma-separated list of keys to be taken from the parse metadata to generate fields. Can be used e.g. for 'description' or 'keywords' provided that these values are generated by a parser (see parse-metatags plugin)
</description>
</property>
但运行
时不会显示任何元数据
bin/nutch indexchecker http://nutch.apache.org/
我确信该网站上有元数据,因为它在运行
时返回解析元数据
bin/nutch parsechecker http://nutch.apache.org/
任何帮助将不胜感激!感谢
答案 0 :(得分:0)
插件索引元数据不会那样工作。你必须在那里指定完整的名称,例如&#34; metatag.keywords&#34;
另外&#34; metatags.names&#34;价值&#34; &#34;不是真正的通配符。你不能把类似&#34; meta &#34;那里也是。