Question

我尝试使用multiprocessing来比使用read_csv更快地读取csv文件。

df = pd.read_csv('review-1m.csv', chunksize=10000)

但我获得的df不是dataframe，而是类型pandas.io.parsers.TextFileReader。所以我尝试使用

df = pd.concat(tp, ignore_index=True)

将df转换为dataframe。但是这个过程需要花费很多时间，因此结果与直接使用read_csv没有太大区别。有谁知道如何更快地将df转换为dataframe？

Answer 1

pd.read_csv（）可能会给你与其他任何方法相同的读取时间。如果您想要真正提高性能，则应更改存储文件的格式。