如何使用fileStream来传输镶木地板文件?

时间:2016-02-16 16:14:36

标签: hadoop apache-spark spark-streaming hadoop2 parquet

我正在尝试将镶木地板文件流式传输到Spark中,但我不知道如何使用StreamingContext的fileStream方法。

感谢任何帮助。

1 个答案:

答案 0 :(得分:0)

基于Spark Streaming Documentation

streamingContext.textFileStream(dataDirectory)

Spark Streaming将监视目录dataDirectory并处理在该目录中创建的任何文件(不支持在嵌套目录中编写的文件)。注意

文件必须具有相同的数据格式。 必须通过原子移动或将它们重命名为数据目录,在dataDirectory中创建文件。 移动后,不得更改文件。因此,如果连续追加文件,则不会读取新数据。 对于简单的文本文件,有一个更简单的方法streamingContext.textFileStream(dataDirectory)。文件流不需要运行接收器,因此不需要分配核心。