我正在尝试从包含大约100万行的csv文件加载数据,当我打印我的数据集计数时,我只得到483414行。
以下是我加载数据的方式:
Dataset<Row> dataset=sparkSession.read().options(fileOptions).csv(filePath);
dataset.count(); //<-- 483414 rows instead of 1066879
文件选项:
“报头”=&GT; “true”“delimiter”=&gt; “μ”“charset”=&gt; “ISO-8859-1”
我正在使用spark 2.1.0和hdp 2.6。和java 1.8。 spark是从masternode(客户端模式)提交的。 在分配作业时我没有错误或警告。 我尝试使用panda加载,我得到了整个数据(1066879行)。 你有什么主意吗? 提前致谢