加载相同的.csv文件时,Pandas数据框和spark数据框返回不同的行数

时间:2019-06-21 20:01:40

标签: python pandas apache-spark pyspark

我试图将相同的.csv文件(〜601MB)加载到熊猫数据帧和spark数据帧。在两个数据帧上进行简单的行计数会得出不同的行数:

  • 熊猫:2,206,990
  • 火花:3,738,937

我正在Databricks上使用Spark集群(i3.xlarge 30.5GB内存+ 3个相同类型的工作程序)。并且还尝试使用AWS EC2实例加载熊猫数据框(i3.xlarge 30.5GB内存)。 该文件将以以下方式加载到spark中:

train_df = spark.read.option("delimiter", ";").csv(train_pth, header="true", inferSchema="true")

在大熊猫中:

train_df = pd.read_csv(train_pth, delimiter=";")

我是熊猫新手。谁能告诉我熊猫read_csv函数是否限制要加载的行数?

非常感谢您!

0 个答案:

没有答案