我正在尝试将一些元标记来自Nutch的meta标签。我已经完成了一步一步的教程Nutch - Parse Metatags,但没有编入任何索引。
我已经按照分步教程配置了插件。当我运行爬网过程时,我可以读到15个文档在日志中被编入索引,但是当我查看弹性时,我看不到它们。索引已创建,但它有0个文档。日志中没有错误。
索引器:索引,删除或跳过的文档数:
索引器:15索引(添加/更新)
索引:完成于2017-12-20 12:42:58,已过去:00:00:04
如果删除索引元数据插件并重新运行抓取过程,则文档将在Elastic中写入,但它们没有元标记。
如何使用Nutch和Elastic抓取元标记?为什么在激活该插件时会对任何内容编制索引?
我正在使用带有弹性的apache-nutch-1.13。
答案 0 :(得分:0)
我找到了解决方案。由于字段名称,弹性引发错误。插件创建的名称是"元数据。*"。弹性不接受字段名称中的点。要解决此问题,您必须配置索引元数据,而不使用前缀" metedata。"。此前缀仅适用于Solr。
<property>
<name>metatags.names</name>
<value>description,keywords</value>
<description>...</description>
</property>
...
<property>
<name>index.parse.md</name>
<value>description,keywords</value>
<description>...</description>
</property>