Question

我有一个超过300k文件的数据集，我需要阅读并附加到字典中。

Project properties -> Configuration properties -> C/C++ -> General -> Additional include directories

是否有更快的方法来执行此操作，因为当前方法需要一个多小时。

Answer 1

您可以使用 multiprocessing 模块。

from multiprocessing import Pool

def readFile(path):
    return pd.read_table(path, header=None, encoding='utf-8', quoting=3, error_bad_lines=False)


result = list(Pool(processes=nprocs).imap(readFile, article_paths))  #nprocs = Number of processors

在python中读取多个文件

1 个答案: