我们有一个我们想要拆分为3的文件,我们需要在将它导入Hana Vora之前执行一些数据清理 - 否则所有内容都必须输入为String,这是不理想的。
我们可以在spark中导入和准备DataFrames,但是当我尝试写入HDFS文件系统时,或者更好的是,在“com.sap.spark.vora”数据源中保存为表,我得到错误。
任何人都可以建议以可靠的方式将火花准备的数据集导入Hana Vora吗?谢谢!
答案 0 :(得分:0)
Vora目前仅正式支持将数据附加到现有表格(使用APPEND语句)。有关详情,请参阅SAP HANA Vora Developer Guide - > “3.5将数据附加到现有表”
章节这意味着您必须创建一个中间文件。 Vora支持从CSV,ORC,Parquet文件中读取。数据帧可以直接从Spark保存在ORC和Parquet文件中(参见https://spark.apache.org/docs/1.6.1/sql-programming-guide.htm)。要从Spark写入CSV文件,请参阅https://github.com/databricks/spark-csv