我有一个简单的csv文件,该文件通过管道定界,可以将其加载到Databricks中,然后分解df并显示效果很好。然后,我尝试格式化相同的主数据集并从SQL Server导出数据。加载后,输出表明它已加载(列出字段名称和推断出的数据类型-所有字符串,但这不是一个好兆头)
df = spark.read.format("csv").options(header='true', quote='"', delimiter="|",ignoreLeadingWhiteSpace='true',inferSchema='true').load("/mnt/gl/mainfile.csv")
然后我显示(df),但看不到很好的显示。而是显示以下内容:
Job 34 View
(Stages: 1/1)
Job 35 View
(Stages: 1/1)
Job 36 View
(Stages: 1/1)
很明显,这里的csv有问题,但是我不知道如何解决这个问题-我已经很小心如何从SQL Server导出它,所以不确定在那做些什么。
答案 0 :(得分:1)
好,我解决了。如果您遇到类似的问题,则可能意味着您的csv格式不正确。使用Ron编辑器之类的文本编辑器打开简历,然后目视检查数据。由于某种原因,在我的数据集上,最终金额为$的字段在其前面有一个“,但没有在其末尾。”
例如“ 12344.67
不知道为什么SQL Server会这样做(我正在使用导入/导出向导),但是我摆脱了导出的csv中的“分隔符,现在可以正常使用了