Spark推断架构并使用它加载数据

时间:2018-05-29 04:52:59

标签: apache-spark apache-spark-sql schema

我想从大型数据集(比如6个月数据)推断出架构,并使用它来加载较小的数据集(每小时)。

如何推断架构并将其保存到文件中并使用保存的架构加载数据?

我已经学会了将架构存储到文件中 How to write a DataFrame schema to file in Scala

如何使用文件中存储的相同架构加载其他数据集?总结一下 1)将数据加载更长的时间段,以便捕获所有可用字段 2)将推断的模式存储到文件(一次性活动) 3)使用存储的模式加载较小的数据集

0 个答案:

没有答案