Question

我有一个CSV文件，其中包含标题和12 653 750行数据。我想使用熊猫读取标题和最后2 653 750行。换句话说，我想跳过前一亿行数据，并使用以下代码：

part_data = pd.read_csv("data.csv", skiprows=range(1, 10000001), index_col=False)

所以我希望熊猫返回一个带有标题和2 653 750行数据的数据框。但是，我从熊猫那里得到的是一个带有标头和5 123 000行数据的数据框，这是不可能的。有趣的是，当我尝试skiprows=range(1, 20000001)时，pandas仍然返回一个数据帧（没有任何错误），但是现在有123 000行，即使完整数据不包含那么多行。

我在具有50行的相当小的数据集上尝试了相同的代码，在这里它可以完美地工作。您知道这种奇怪行为的原因是什么，最重要的是如何解决该问题？

首先要说的是，我完全知道其他软件包，例如vaex或Dask（有时使我发疯），但我想使这种简单的过程适用于熊猫。

使用跳过行时，熊猫read_csv返回太多行

0 个答案: