我有一个CSV文件,其中包含标题和12 653 750行数据。我想使用熊猫读取标题和最后2 653 750行。换句话说,我想跳过前一亿行数据,并使用以下代码:
part_data = pd.read_csv("data.csv", skiprows=range(1, 10000001), index_col=False)
所以我希望熊猫返回一个带有标题和2 653 750行数据的数据框。但是,我从熊猫那里得到的是一个带有标头和5 123 000行数据的数据框,这是不可能的。有趣的是,当我尝试skiprows=range(1, 20000001)
时,pandas仍然返回一个数据帧(没有任何错误),但是现在有123 000行,即使完整数据不包含那么多行。
我在具有50行的相当小的数据集上尝试了相同的代码,在这里它可以完美地工作。您知道这种奇怪行为的原因是什么,最重要的是如何解决该问题?
首先要说的是,我完全知道其他软件包,例如vaex或Dask(有时使我发疯),但我想使这种简单的过程适用于熊猫。