我有一个用例,其中我必须将HDFS文件格式转换为csv或tsv。我知道一种方法,我们可以在hdfs文件格式之上创建配置单元表,然后将数据存储为所需格式。但是为此,我需要数据信息(例如创建表的列名)。是否有其他使用蜂巢的方法或其他将hdfs的任何文件格式转换为csv或tsv的方法?
答案 0 :(得分:0)
首先..要将数据转换为CSV或TSV,您将需要结构化的数据,请检查一次。
您指定的使用Hive转换数据的方式是其中一种。
其他选择是使用火花。 -在这里,您必须以结构化格式读取数据,然后在保存时必须转换为CSV。请参考以下链接以获取更多说明:
How to export data from Spark SQL to CSV
您也可以使用python将数据转换为CSV。