我在问题陈述中使用了pyspark,在这里,我想组合我的输出并将其作为输入提供给我的其他模型。但是在hdfs中,我的输出被分成了几部分,因此很难将它们组合起来。
所以我想直接将输出结果存储到impala表中,我该怎么做?
答案 0 :(得分:1)
要将存储在HDFS中的文件内容作为表格公开,您可以定义外部表格:
tableView.scrollToRow(at: indexpath as IndexPath, at: .bottom, animated: true)
支持不同的文件格式。该示例适用于使用制表符作为列分隔符的平面文件。
如果要更改Spark生成的文件数,可以在保存之前用CREATE EXTERNAL TABLE table_name
( column_1 string
, ... )
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE
LOCATION '/some/path/in/hdfs/';
更改RDD分区的数量。