应用错误收集

从程序上创建Spark RDD

时间：2017-04-12 16:20:05

标签： apache-spark

我需要通过重复调用一个逐个生成记录的自定义函数来创建一个Spark RDD（或DataFrame，或者很好）。可能吗？

我没有可以读取的文件，因为我正在与管理复杂管道的另一个系统连接以生成记录，并且生成的文件无论如何都要太大（数百TB），以便我们考虑持久化到磁盘。

0 个答案:

没有答案