标签: apache-spark apache-spark-sql schema
我想从大型数据集(比如6个月数据)推断出架构,并使用它来加载较小的数据集(每小时)。
如何推断架构并将其保存到文件中并使用保存的架构加载数据?
我已经学会了将架构存储到文件中 How to write a DataFrame schema to file in Scala
如何使用文件中存储的相同架构加载其他数据集?总结一下 1)将数据加载更长的时间段,以便捕获所有可用字段 2)将推断的模式存储到文件(一次性活动) 3)使用存储的模式加载较小的数据集