我想知道是否有可靠的方法从物理位置创建火花流?我正在使用'textFileStream',但似乎主要用于文件是否在HDFS中。如果你看到函数的定义,它说“创建一个监视Hadoop兼容文件系统的输入流”
答案 0 :(得分:2)
您是否暗示HDFS不是物理位置?有物理存在的datanode目录...
您应该能够将textFile与file://
URI一起使用,但您需要确保群集中的所有节点都可以从该位置读取。
从Hadoop兼容文件系统的定义。
选择使用哪个文件系统来自用于引用它的URI方案 - 任何文件路径上的前缀hdfs:表示它引用HDFS文件系统; file:到本地文件系统,s3:到Amazon S3,ftp:FTP,swift:OpenStackSwift,...等。
还有其他文件系统通过相关的Java JAR文件,向Hadoop添加新架构所需的本机二进制文件和配置参数提供与Hadoop的显式集成