nutch索引元数据没有索引

时间:2017-12-20 14:41:01

标签: apache elasticsearch plugins meta-tags nutch

我正在尝试将一些元标记来自Nutch的meta标签。我已经完成了一步一步的教程Nutch - Parse Metatags,但没有编入任何索引。

我已经按照分步教程配置了插件。当我运行爬网过程时,我可以读到15个文档在日志中被编入索引,但是当我查看弹性时,我看不到它们。索引已创建,但它有0个文档。日志中没有错误。

  

索引器:索引,删除或跳过的文档数:

     

索引器:15索引(添加/更新)

     

索引:完成于2017-12-20 12:42:58,已过去:00:00:04

如果删除索引元数据插件并重新运行抓取过程,则文档将在Elastic中写入,但它们没有元标记。

如何使用Nutch和Elastic抓取元标记?为什么在激活该插件时会对任何内容编制索引?

我正在使用带有弹性的apache-nutch-1.13。

1 个答案:

答案 0 :(得分:0)

我找到了解决方案。由于字段名称,弹性引发错误。插件创建的名称是"元数据。*"。弹性不接受字段名称中的点。要解决此问题,您必须配置索引元数据,而不使用前缀" metedata。"。此前缀仅适用于Solr。

<property>
  <name>metatags.names</name>
  <value>description,keywords</value>
  <description>...</description>
</property>
...
<property>
  <name>index.parse.md</name>
  <value>description,keywords</value>
  <description>...</description>
</property>