我可以在风暴爬虫中存储网页的html内容吗?

时间:2017-12-04 04:14:41

标签: web-crawler elasticsearch-5 stormcrawler

我正在使用strom-crawler-elastic。我能够看到获取的网址和状态。 ES_IndexInit.sh文件中的配置更改仅提供url,title,host,text。但是我可以用html标签存储整个html内容吗?

1 个答案:

答案 0 :(得分:0)

ES IndexerBolt从ParseFilter获取页面内容,但不对其执行任何操作。一种选择是修改代码,以便从传入的元组中提取内容字段并对其进行索引。

或者,您可以实现自定义ParseFilter,它将页面内容复制到元数据键值,并通过配置文件中的 indexer.md.mapping 配置要编入索引的字段。 / p>

无论哪种方式,您都需要修改ES_indexInit.sh,以便ES中的字段以您希望的方式编入索引和/或存储。