应用错误收集

我可以在风暴爬虫中存储网页的html内容吗？

时间：2017-12-04 04:14:41

标签： web-crawler elasticsearch-5 stormcrawler

我正在使用strom-crawler-elastic。我能够看到获取的网址和状态。 ES_IndexInit.sh文件中的配置更改仅提供url，title，host，text。但是我可以用html标签存储整个html内容吗？

1 个答案:

答案 0 :(得分：0)

ES IndexerBolt从ParseFilter获取页面内容，但不对其执行任何操作。一种选择是修改代码，以便从传入的元组中提取内容字段并对其进行索引。

或者，您可以实现自定义ParseFilter，它将页面内容复制到元数据键值，并通过配置文件中的 indexer.md.mapping 配置要编入索引的字段。 / p>

无论哪种方式，您都需要修改ES_indexInit.sh，以便ES中的字段以您希望的方式编入索引和/或存储。