我正在尝试将镶木地板文件流式传输到Spark中,但我不知道如何使用StreamingContext的fileStream方法。
感谢任何帮助。
答案 0 :(得分:0)
基于Spark Streaming Documentation:
streamingContext.textFileStream(dataDirectory)
Spark Streaming将监视目录dataDirectory并处理在该目录中创建的任何文件(不支持在嵌套目录中编写的文件)。注意
文件必须具有相同的数据格式。 必须通过原子移动或将它们重命名为数据目录,在dataDirectory中创建文件。 移动后,不得更改文件。因此,如果连续追加文件,则不会读取新数据。 对于简单的文本文件,有一个更简单的方法streamingContext.textFileStream(dataDirectory)。文件流不需要运行接收器,因此不需要分配核心。