我们正尝试在状态索引中存储网页内容,以及网址,状态和元数据信息。
我们尝试修改ES_IndexInit.sh 并在状态'中添加下一个属性。映射部分:
1
but we can't see anything in Kibana after crawling process.
我们的猜测是我们必须改变风暴爬虫项目中的Java源代码,但不知道如何继续。
任何见解都会非常有用。提前谢谢。
答案 0 :(得分:0)
内容通常存储在单独的索引中,其状态主要用于调度URL和保留其元数据。它也可能对性能产生影响。
如果您希望继续这样做,您可以编写自定义ParseFilter来将文本内容存储在元数据中。像往常一样,您需要将用于存储文本的密钥添加到配置条目中,列出要在状态索引中保留的元数据( metadata.persist )