应用错误收集

我正在使用序列文件在单个HDFS文件中聚合多个二进制记录。我想使用流API（例如，作为InputStream或DataInputStream）访问Spark中的每个聚合文件，类似于SparkContext.binaryFiles（）对常规文件的工作方式。

是否有类似的API会为存储在序列文件中的每个二进制块返回一个InputStream？

另一个问题是Spark是否会将本地块从HDSF节点加载到内存，或者更确切地说一个Spark进程将在单个节点上读取整个序列文件以创建分布式RDD？