如何连接Flume(文本日志文件输出到Spark Streaming)

时间:2018-12-30 05:50:42

标签: apache-spark pyspark spark-streaming flume flume-ng

我有一个项目需求,必须首先使用水槽收集事件,然后使用Apache Spark流读取流数据进行分析。 请注意,我有200个服务器位置,您必须从U读取事件,所有文件的格式都相同,但是服务器和位置将有所不同

  

第1阶段:目前,我已经设置了一个水槽代理,该代理将读取日志   来自所有服务器的文件事件(写入日志的新数据)和有害生物   集中位置。阶段2:在这个阶段,我正在阅读   来自集中位置的文件(可用于火花流)   使用Apache Spark流并进行分析。

Questions:
1. Do we any other Apache to handle the above requirement?
2. Can I connect flume sink to the spark streaming so that centralized location can be avoided,If yes and please share the setup?
3. Can Spark streaming directly read the multiple files from multiple location(across the server)
Please help me

请对此进行指导

0 个答案:

没有答案