从程序上创建Spark RDD

时间:2017-04-12 16:20:05

标签: apache-spark

我需要通过重复调用一个逐个生成记录的自定义函数来创建一个Spark RDD(或DataFrame,或者很好)。可能吗?

我没有可以读取的文件,因为我正在与管理复杂管道的另一个系统连接以生成记录,并且生成的文件无论如何都要太大(数百TB),以便我们考虑持久化到磁盘。

0 个答案:

没有答案