如何使用StormCrawler将网站内容存储在状态索引中?

时间:2018-01-17 09:15:48

标签: elasticsearch web-crawler kibana stormcrawler

我们正尝试在状态索引中存储网页内容,以及网址,状态和元数据信息。

我们尝试修改ES_IndexInit.sh 并在状态'中添加下一个属性。映射部分:

1

but we can't see anything in Kibana after crawling process.

我们的猜测是我们必须改变风暴爬虫项目中的Java源代码,但不知道如何继续。

任何见解都会非常有用。提前谢谢。

1 个答案:

答案 0 :(得分:0)

内容通常存储在单独的索引中,其状态主要用于调度URL和保留其元数据。它也可能对性能产生影响。

如果您希望继续这样做,您可以编写自定义ParseFilter来将文本内容存储在元数据中。像往常一样,您需要将用于存储文本的密钥添加到配置条目中,列出要在状态索引中保留的元数据( metadata.persist