如何将pyspark输出写入impala表?

时间:2018-03-22 07:22:07

标签: hadoop pyspark hdfs bigdata impala

我在问题陈述中使用了pyspark,在这里,我想组合我的输出并将其作为输入提供给我的其他模型。但是在hdfs中,我的输出被分成了几部分,因此很难将它们组合起来。

所以我想直接将输出结果存储到impala表中,我该怎么做?

1 个答案:

答案 0 :(得分:1)

要将存储在HDFS中的文件内容作为表格公开,您可以定义外部表格

tableView.scrollToRow(at: indexpath as IndexPath, at: .bottom, animated: true)

支持不同的文件格式。该示例适用于使用制表符作为列分隔符的平面文件。

如果要更改Spark生成的文件数,可以在保存之前用CREATE EXTERNAL TABLE table_name ( column_1 string , ... ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE LOCATION '/some/path/in/hdfs/'; 更改RDD分区的数量。