Question

我的问题真的很简单。

我正在使用pyspark将配置单元表导出到SQL Server。

我发现我将列名导出为SQL Server中的行。

我只想不使用列名。

我不希望表格中有这些列...

我的pyspark代码在这里：

df.write.jdbc("jdbc:sqlserver://10.8.12.10;instanceName=sql1", "table_name", "overwrite", {"user": "user_name", "password": "111111", "database": "Finance"})

是否可以跳过列名？

Answer 1

我认为JDBC连接器实际上并不是添加这些标题行的原因。标头已存在于您的数据框中，这是从Hive表读取数据时的已知问题。

如果您使用SQL从Hive加载数据，则可以尝试过滤条件为col != 'col'的标头：

# adapt the condition by verifiying what is in  df.show()    
df = spark.sql("select * from my_table where sold_to_party!='Sold-To Party'")

如何在没有列名的情况下使用pyspark写入JDBC

1 个答案: