Question

我在问题陈述中使用了pyspark，在这里，我想组合我的输出并将其作为输入提供给我的其他模型。但是在hdfs中，我的输出被分成了几部分，因此很难将它们组合起来。

所以我想直接将输出结果存储到impala表中，我该怎么做？

Answer 1

要将存储在HDFS中的文件内容作为表格公开，您可以定义外部表格：

tableView.scrollToRow(at: indexpath as IndexPath, at: .bottom, animated: true)

支持不同的文件格式。该示例适用于使用制表符作为列分隔符的平面文件。

如果要更改Spark生成的文件数，可以在保存之前用CREATE EXTERNAL TABLE table_name ( column_1 string , ... ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE LOCATION '/some/path/in/hdfs/';更改RDD分区的数量。

如何将pyspark输出写入impala表？

1 个答案: