存储&使用Spark / Scala在镶木地板文件中读取自定义元数据

时间:2017-05-29 12:32:56

标签: scala apache-spark parquet

我知道镶木地板文件存储元数据,但是可以使用Scala(最好)使用Spark将自定义元数据添加到镶木地板文件中吗?

我的想法是我在Hadoop存储中存储了许多类似的结构化镶木地板文件,但每个都有一个唯一命名的源(String字段,也作为镶木地板文件中的列),但是,我想要访问这些信息没有产生实际读取镶木地板的开销,甚至可能从镶木地板上移除这个多余的柱子。

我真的不想把这个信息放在文件名中,所以我现在最好的选择是阅读每个镶木地板的第一行,并将源列用作字符串字段。

它有效,但我只是想知道是否有更好的方法。

0 个答案:

没有答案