我加载了一个数据文件(3400万行句子),该数据文件在笔记本电脑上占用了4G内存。
在进行预处理的同时,处理了200万个句子后,内存增加了1.5G。
count = 0
for line in lines:
lines[count] = re.findall(r"[\w']+|[().,:!?;'$&]", line)
count += 1
if count % 100000 == 0:
print(count)
gc.collect()
有人可以解释为什么以及如何对其进行优化吗?