我有一个在dat/delimited
中创建文件摘录scala/spark
的特定方案;只需要一些关于替代方法的建议。
标题和尾部的创建:
val header = Seq(filename,system_time)
Seq(header).toDS.write.text(s"/path/to/header/creation/dir")
val trailer = Seq(rowscount,filename)
Seq(header).toDS.write.text(s"/path/to/trailer/creation/dir")
我从一个数据框中的蜂巢表中提取了
val df = sql("select * from hive")
数据框与标题/尾部具有不同的架构。目前,我只是合并header-df-trailer并创建一个最终文件。
我的查询是,我们不必完全存储最终文件而无需单独存储并合并吗?