我尝试使用multiprocessing
来比使用read_csv
更快地读取csv文件。
df = pd.read_csv('review-1m.csv', chunksize=10000)
但我获得的df
不是dataframe
,而是类型pandas.io.parsers.TextFileReader
。所以我尝试使用
df = pd.concat(tp, ignore_index=True)
将df
转换为dataframe
。但是这个过程需要花费很多时间,因此结果与直接使用read_csv
没有太大区别。有谁知道如何更快地将df
转换为dataframe
?
答案 0 :(得分:0)
pd.read_csv()可能会给你与其他任何方法相同的读取时间。如果您想要真正提高性能,则应更改存储文件的格式。
http://pandas.pydata.org/pandas-docs/stable/io.html#performance-considerations