Question

我有一个简单的csv文件，该文件通过管道定界，可以将其加载到Databricks中，然后分解df并显示效果很好。然后，我尝试格式化相同的主数据集并从SQL Server导出数据。加载后，输出表明它已加载（列出字段名称和推断出的数据类型-所有字符串，但这不是一个好兆头）

df = spark.read.format("csv").options(header='true', quote='"', delimiter="|",ignoreLeadingWhiteSpace='true',inferSchema='true').load("/mnt/gl/mainfile.csv")

然后我显示（df），但看不到很好的显示。而是显示以下内容：

Job 34 View

(Stages: 1/1)

Job 35 View

(Stages: 1/1)

Job 36 View

(Stages: 1/1)

很明显，这里的csv有问题，但是我不知道如何解决这个问题-我已经很小心如何从SQL Server导出它，所以不确定在那做些什么。

Answer 1

好，我解决了。如果您遇到类似的问题，则可能意味着您的csv格式不正确。使用Ron编辑器之类的文本编辑器打开简历，然后目视检查数据。由于某种原因，在我的数据集上，最终金额为$的字段在其前面有一个“，但没有在其末尾。”

例如“ 12344.67

不知道为什么SQL Server会这样做（我正在使用导入/导出向导），但是我摆脱了导出的csv中的“分隔符，现在可以正常使用了

数据块-CSV无法正确加载

1 个答案: