标签: hadoop apache-spark hdfs
我正在使用序列文件在单个HDFS文件中聚合多个二进制记录。我想使用流API(例如,作为InputStream或DataInputStream)访问Spark中的每个聚合文件,类似于SparkContext.binaryFiles()对常规文件的工作方式。
是否有类似的API会为存储在序列文件中的每个二进制块返回一个InputStream?
另一个问题是Spark是否会将本地块从HDSF节点加载到内存,或者更确切地说一个Spark进程将在单个节点上读取整个序列文件以创建分布式RDD?