到HdfsBolt的URL内容

时间:2018-06-01 15:53:19

标签: web-crawler stormcrawler

在ES拓扑中,我想在ElasticSearch中索引url并将(url,[title,content])的元组转发到Hdfs存储。我发现Apache-storm有一个合适的Hdfs bolt,看起来像是一个直接的实现。我想知道在哪里可以在ES爬行拓扑中查找这个元组。你能指出哪个螺栓有这个数据吗?

1 个答案:

答案 0 :(得分:0)

您不仅需要文本内容,还需要元数据,因为这是存储标题的位置。查看JSoupParserBolt在默认流上发出的内容,并将HDFS螺栓连接到其输出。

这与我们对扩展HDFS螺栓的WARC module所做的类似,除了WARC bolt不需要解析步骤中的任何内容,并且可以直接连接到Fetcher的输出。