来自文件夹的Apache Spark Streaming(不是HDFS)

时间:2017-03-04 15:38:31

标签: hadoop apache-spark spark-streaming

我想知道是否有可靠的方法从物理位置创建火花流?我正在使用'textFileStream',但似乎主要用于文件是否在HDFS中。如果你看到函数的定义,它说“创建一个监视Hadoop兼容文件系统的输入流”

1 个答案:

答案 0 :(得分:2)

您是否暗示HDFS不是物理位置?有物理存在的datanode目录...

您应该能够将textFile与file:// URI一起使用,但您需要确保群集中的所有节点都可以从该位置读取。

从Hadoop兼容文件系统的定义。

  

选择使用哪个文件系统来自用于引用它的URI方案 - 任何文件路径上的前缀hdfs:表示它引用HDFS文件系统; file:到本地文件系统,s3:到Amazon S3,ftp:FTP,swift:OpenStackSwift,...等。

     

还有其他文件系统通过相关的Java JAR文件,向Hadoop添加新架构所需的本机二进制文件和配置参数提供与Hadoop的显式集成