Spark不会从CSV文件加载所有行

时间:2017-11-17 15:03:02

标签: csv apache-spark dataframe load missing-data

我正在尝试从包含大约100万行的csv文件加载数据,当我打印我的数据集计数时,我只得到483414行。

以下是我加载数据的方式:

Dataset<Row> dataset=sparkSession.read().options(fileOptions).csv(filePath);
dataset.count(); //<-- 483414 rows instead of 1066879

文件选项:

  

“报头”=&GT; “true”“delimiter”=&gt; “μ”“charset”=&gt; “ISO-8859-1”

我正在使用spark 2.1.0和hdp 2.6。和java 1.8。 spark是从masternode(客户端模式)提交的。 在分配作业时我没有错误或警告。 我尝试使用panda加载,我得到了整个数据(1066879行)。 你有什么主意吗? 提前致谢

0 个答案:

没有答案