如何将Spark Dataframe保存到Hana Vora表?

时间:2016-10-17 04:26:02

标签: apache-spark spark-dataframe hana vora

我们有一个我们想要拆分为3的文件,我们需要在将它导入Hana Vora之前执行一些数据清理 - 否则所有内容都必须输入为String,这是不理想的。

我们可以在spark中导入和准备DataFrames,但是当我尝试写入HDFS文件系统时,或者更好的是,在“com.sap.spark.vora”数据源中保存为表,我得到错误。

任何人都可以建议以可靠的方式将火花准备的数据集导入Hana Vora吗?谢谢!

1 个答案:

答案 0 :(得分:0)

Vora目前仅正式支持将数据附加到现有表格(使用APPEND语句)。有关详情,请参阅SAP HANA Vora Developer Guide - > “3.5将数据附加到现有表”

章节

这意味着您必须创建一个中间文件。 Vora支持从CSV,ORC,Parquet文件中读取。数据帧可以直接从Spark保存在ORC和Parquet文件中(参见https://spark.apache.org/docs/1.6.1/sql-programming-guide.htm)。要从Spark写入CSV文件,请参阅https://github.com/databricks/spark-csv