所以我刚刚开始使用Python进行编码。我有很多PDF,这些都是我获取数据的目标。我已经完成了脚本,如果将脚本限制为少量pdf(〜200),它可以正常工作。如果我让skript用4000 pdfs运行,脚本将终止而不会出现错误。我的一个朋友告诉我,这是由于缓存。
我将获取的数据保存到列表中,并在最后一步中从不同的列表中创建一个DataFrame。然后将DataFrame导出到excel。
因此,我尝试在200 pdf之后导出DataFrame(然后清除所有列表和数据框),但随后pandas覆盖了先前的结果。这是正确的方法吗?还是有人可以想到另一种方法来通过大量pdf来获得终止?
现在我使用:
MN=list()
Vds=list()
data={'Materialnummer': MN,'Verwendung des Stoffs':VdS}
df=pd.DataFrame(data)
df.to_excel('test.xls')