标签: apache-spark rdd distributed-computing
我想将RDD上的每个转换存储为一个文件,以便我可以在需要时将它们引回。 我发现每次提到的RDD都会谈到它们是在内存中创建的,我们可以将它们存储在驱动器上还是将它们保存为文件? 如果是,那么描述它的在线文章的链接将非常有用。
答案 0 :(得分:0)
是的,当然!
这里只是一个随机的Databricks link我找到了:
RDD有一些内置方法可以将它们保存到磁盘。一旦进入文件,许多Hadoop数据库都可以直接从文件中批量加载数据,只要它们是特定的格式。