标签: apache-spark
我需要通过重复调用一个逐个生成记录的自定义函数来创建一个Spark RDD(或DataFrame,或者很好)。可能吗?
RDD
DataFrame
我没有可以读取的文件,因为我正在与管理复杂管道的另一个系统连接以生成记录,并且生成的文件无论如何都要太大(数百TB),以便我们考虑持久化到磁盘。