将Tableau csv导入Spark

时间:2017-02-11 18:18:25

标签: csv apache-spark import pyspark tableau

我从tableau的数据集中将一些数据导出为csv。当我尝试使用less进行查看时,它会说may be a binary file. See it anyway?

然而,当我做

cat file.csv | cut -d ',' -f 1

它显示了人类可读的数据(虽然它不会打印第一个字段,但是不会打印整行)。

所以我尝试用Spark:

在Spark 2中加载它
data = sqlContext.read.csv( "file.csv" )
data.show(5)

我得到了:

+--------------------+
|                 _c0|
+--------------------+
|��Cluster ...|
+--------------------+

知道如何从这个假设的二进制文件中创建一个数据帧吗?

1 个答案:

答案 0 :(得分:1)

最后我发现它一定是UTF-16文本文件。所以我用了

iconv -f UTF-16 -t UTF-8//TRANSLIT file.csv > file-utf8.csv

将文件转换为utf-8 / ascii,转换后的文件加载正常。