我知道spark内置方法可以有分区并读取大块文件并使用textfile分发为rdd。 但是,我在一个定制的加密文件系统中读到这个,火花本质上不支持。我能想到的一种方法是读取输入流并加载多行并分发给执行程序。继续阅读,直到加载所有文件。因此,由于内存不足错误,执行程序不会爆炸。这有可能在火花中做到这一点吗?
答案 0 :(得分:0)
您可以尝试使用不同n的lines.take(n)来查找群集的限制 或
spark.readStream.option("sep", ";").csv("filepath.csv")