我正在尝试从发票(pdf)中提取数据,将数据写入CSV并将所需信息提取到GUI中(例如,该周售出了多少产品)
我不能使用pypdf,因为Windows中的“打印到pdf”显然存储了它作为某种图片或其他东西生成的pfds。 供参考:Pypdf extracts code from one PDF, but not from another?
我的问题:
我正在使用此代码提取数据(该网站上的一个好人已经帮助了我)
from tika import parser
raw = parser.from_file('2.pdf')
print(raw['content'])
那给了我
Schickmaier产品Excel.xlsx
LIEFERSCHEIN
Kunde客户地址Adresse地址
地址数据数据
K / DB-Nr。 211联系人
Preis / N M Gesamtpreis
Bio Erdbeer-Chilischokolade 3,05€20 61,09€Bio Beuscherl 5,23€6 31,36€Bio ChiliconCarne 5,98€15 89,77€Bio Geschnetzeltes 5,23€ 15 78,41€
Versand Brutto Versand Netto-€
Warenwert netto 10%260,64€欧元10%26,06€
RECHNUNGSBETRAG BRUTTO 286,70€塞特1/1
2019 /
数据
我现在已经尝试了无数次使用这些数据,要么将其清理到缓冲区中,要么将其写入txt或csv中,然后清理,但是没有任何效果,如果我至少可以写的话,它已经很有帮助了它到一个txt,然后从那里去,这一点都不好,但是我是新来的,我的可能性有限:/ 最好是将其以清理后的格式写入到CSV中,添加所有其他发票,然后使用数据-我打算这样做,但是编程很困难xD 我已经去过GUI了,但是这个数据问题很痛
此外,我花了数小时观看视频并试图找到解决方案,但是我无法运行任何东西,甚至可以满足我的需求。 我保证,在搜索自己之前,我不会浪费你的时间
如果我在每张发票中都得到一行CSV,并将单词放入不同的单元格中,那么效果就很好,这样我就可以使用它们将它们加起来,并在自学编程的同时使我们新成立的小公司的发展更加明显 非常感谢!
答案 0 :(得分:0)
如果您只是想将每个单词放入不同的单元格,请运行查找并替换文本字符串。您需要用逗号替换每个中断或空格。在“查找/替换”中添加一个例外以转义现有的逗号(将其用双引号引起来,即23,456->“ 23,456”)。将空格和换行符替换为逗号后,您可以将字符串另存为.csv。如果您只是想提取某些值,那么熟悉Regular Expressions会很有帮助。