我有一个大文件(例如20Gb),我想通过跳过行来读取该数据的一些样本 但是跳过行并读取几行会花费太多时间
pd.read_csv(dataset_path, skiprows=100000000, nrows=100, encoding="utf-16")
跳过文件中的行会占用太多时间吗?不是一种更快地跳过行的方法吗?
答案 0 :(得分:0)
您可以尝试逐块读取而不是跳过行
读取您希望拥有的块
iter_csv = pd.read_csv(='sample.csv', iterator=True, chunksize=10000,error_bad_lines=False)
data = pd.concat ([chunk.loc[chunk['Column_name']==1)] for chunk in iter_csv] )