Question

我有一个大文件（例如20Gb），我想通过跳过行来读取该数据的一些样本但是跳过行并读取几行会花费太多时间

pd.read_csv(dataset_path, skiprows=100000000, nrows=100, encoding="utf-16")

跳过文件中的行会占用太多时间吗？不是一种更快地跳过行的方法吗？

Answer 1

您可以尝试逐块读取而不是跳过行

读取您希望拥有的块

iter_csv = pd.read_csv(='sample.csv', iterator=True, chunksize=10000,error_bad_lines=False)
data = pd.concat ([chunk.loc[chunk['Column_name']==1)] for chunk in iter_csv] )

大文件的熊猫read_csv跳过行花费太多时间来加载数据

1 个答案: