大文件的熊猫read_csv跳过行花费太多时间来加载数据

时间:2019-10-25 17:59:24

标签: pandas dataset large-data

我有一个大文件(例如20Gb),我想通过跳过行来读取该数据的一些样本 但是跳过行并读取几行会花费太多时间

pd.read_csv(dataset_path, skiprows=100000000, nrows=100, encoding="utf-16")

跳过文件中的行会占用太多时间吗?不是一种更快地跳过行的方法吗?

1 个答案:

答案 0 :(得分:0)

您可以尝试逐块读取而不是跳过行

读取您希望拥有的块

iter_csv = pd.read_csv(='sample.csv', iterator=True, chunksize=10000,error_bad_lines=False)
data = pd.concat ([chunk.loc[chunk['Column_name']==1)] for chunk in iter_csv] )