我有一个超过300k文件的数据集,我需要阅读并附加到字典中。
Project properties -> Configuration properties -> C/C++ -> General -> Additional include directories
是否有更快的方法来执行此操作,因为当前方法需要一个多小时。
答案 0 :(得分:1)
您可以使用 multiprocessing 模块。
from multiprocessing import Pool
def readFile(path):
return pd.read_table(path, header=None, encoding='utf-8', quoting=3, error_bad_lines=False)
result = list(Pool(processes=nprocs).imap(readFile, article_paths)) #nprocs = Number of processors