应用错误收集

我有一个问题，我有一个PySpark数据框，其中的字符串列包含超过256个字符，有时甚至超过4000个字符。当我使用DWH连接器将数据写入数据仓库时，它失败，提示“字符串或二进制数据可能被截断”。这是我正在使用的代码：

pySparkDataFrame.write \
.format("com.databricks.spark.sqldw") \
.mode("append") \
.option("url", dwhConnectorDWHConnectionString) \
.option("forwardSparkAzureStorageCredentials", "true") \
.option("dbTable", feed + "Staging." + "TableName") \
.option("tempDir", dwhConnectorTempBlobDirectory) \
.save()

我已经尝试将选项“ maxStrLength”设置为4000和40000，但没有帮助。唯一有效的方法是过滤掉导入查询中超过256个字符的所有内容。

DWH连接器在字符串列中最多允许包含256个字符

0 个答案: