应用错误收集

时间：2016-10-17 04:26:02

标签： apache-spark spark-dataframe hana vora

我们有一个我们想要拆分为3的文件，我们需要在将它导入Hana Vora之前执行一些数据清理 - 否则所有内容都必须输入为String，这是不理想的。

我们可以在spark中导入和准备DataFrames，但是当我尝试写入HDFS文件系统时，或者更好的是，在“com.sap.spark.vora”数据源中保存为表，我得到错误。

任何人都可以建议以可靠的方式将火花准备的数据集导入Hana Vora吗？谢谢！

答案 0 :(得分：0)

Vora目前仅正式支持将数据附加到现有表格（使用APPEND语句）。有关详情，请参阅SAP HANA Vora Developer Guide - ＆gt; “3.5将数据附加到现有表”

章节

这意味着您必须创建一个中间文件。 Vora支持从CSV，ORC，Parquet文件中读取。数据帧可以直接从Spark保存在ORC和Parquet文件中（参见https://spark.apache.org/docs/1.6.1/sql-programming-guide.htm）。要从Spark写入CSV文件，请参阅https://github.com/databricks/spark-csv