我试图将相同的.csv文件(〜601MB)加载到熊猫数据帧和spark数据帧。在两个数据帧上进行简单的行计数会得出不同的行数:
我正在Databricks上使用Spark集群(i3.xlarge 30.5GB内存+ 3个相同类型的工作程序)。并且还尝试使用AWS EC2实例加载熊猫数据框(i3.xlarge 30.5GB内存)。 该文件将以以下方式加载到spark中:
train_df = spark.read.option("delimiter", ";").csv(train_pth, header="true", inferSchema="true")
在大熊猫中:
train_df = pd.read_csv(train_pth, delimiter=";")
我是熊猫新手。谁能告诉我熊猫read_csv
函数是否限制要加载的行数?
非常感谢您!