我从tableau的数据集中将一些数据导出为csv。当我尝试使用less
进行查看时,它会说may be a binary file. See it anyway?
然而,当我做
时 cat file.csv | cut -d ',' -f 1
它显示了人类可读的数据(虽然它不会打印第一个字段,但是不会打印整行)。
所以我尝试用Spark:
在Spark 2中加载它data = sqlContext.read.csv( "file.csv" )
data.show(5)
我得到了:
+--------------------+
| _c0|
+--------------------+
|��Cluster ...|
+--------------------+
知道如何从这个假设的二进制文件中创建一个数据帧吗?
答案 0 :(得分:1)
最后我发现它一定是UTF-16文本文件。所以我用了
iconv -f UTF-16 -t UTF-8//TRANSLIT file.csv > file-utf8.csv
将文件转换为utf-8 / ascii,转换后的文件加载正常。