Question

我知道spark内置方法可以有分区并读取大块文件并使用textfile分发为rdd。但是，我在一个定制的加密文件系统中读到这个，火花本质上不支持。我能想到的一种方法是读取输入流并加载多行并分发给执行程序。继续阅读，直到加载所有文件。因此，由于内存不足错误，执行程序不会爆炸。这有可能在火花中做到这一点吗？

Answer 1

您可以尝试使用不同n的lines.take（n）来查找群集的限制或

spark.readStream.option("sep", ";").csv("filepath.csv")

Spark将大文件作为输入流读取

1 个答案: