我想使用spark streaming并从文件系统(比如HDFS)提供输入。我该怎么做
答案 0 :(得分:1)
例如,使用JavaStreamingContext
时,有适当的方法方法,例如textFileStream()
读取任何文本文件fileStream()
以从Hadoop兼容的文件系统中读取文件。作为API参数传递的目录将受到监视以进行更改。如果您要移动任何文件,Streaming应用程序将根据批处理间隔选择它。
请查看github处的简单示例,以便从Twitter或文件系统中读取数据。
希望这会有所帮助。