Spark和序列文件

时间:2016-05-20 09:11:12

标签: hadoop apache-spark hdfs

我正在使用序列文件在单个HDFS文件中聚合多个二进制记录。我想使用流API(例如,作为InputStream或DataInputStream)访问Spark中的每个聚合文件,类似于SparkContext.binaryFiles()对常规文件的工作方式。

是否有类似的API会为存储在序列文件中的每个二进制块返回一个InputStream?

另一个问题是Spark是否会将本地块从HDSF节点加载到内存,或者更确切地说一个Spark进程将在单个节点上读取整个序列文件以创建分布式RDD?

0 个答案:

没有答案