我有一个问题,我有一个PySpark数据框,其中的字符串列包含超过256个字符,有时甚至超过4000个字符。当我使用DWH连接器将数据写入数据仓库时,它失败,提示“字符串或二进制数据可能被截断”。这是我正在使用的代码:
pySparkDataFrame.write \
.format("com.databricks.spark.sqldw") \
.mode("append") \
.option("url", dwhConnectorDWHConnectionString) \
.option("forwardSparkAzureStorageCredentials", "true") \
.option("dbTable", feed + "Staging." + "TableName") \
.option("tempDir", dwhConnectorTempBlobDirectory) \
.save()
我已经尝试将选项“ maxStrLength”设置为4000和40000,但没有帮助。唯一有效的方法是过滤掉导入查询中超过256个字符的所有内容。