Question

我正在尝试从发票（pdf）中提取数据，将数据写入CSV并将所需信息提取到GUI中（例如，该周售出了多少产品）

我不能使用pypdf，因为Windows中的“打印到pdf”显然存储了它作为某种图片或其他东西生成的pfds。供参考：Pypdf extracts code from one PDF, but not from another?

我的问题：

我正在使用此代码提取数据（该网站上的一个好人已经帮助了我）

from tika import parser
raw = parser.from_file('2.pdf')
print(raw['content'])

那给了我

Schickmaier产品Excel.xlsx

LIEFERSCHEIN

Kunde客户地址Adresse地址

地址数据数据

K / DB-Nr。 211联系人

Preis / N M Gesamtpreis

Bio Erdbeer-Chilischokolade 3,05€20 61,09€Bio Beuscherl 5,23€6   31,36€Bio ChiliconCarne 5,98€15 89,77€Bio Geschnetzeltes 5,23€   15 78,41€

Versand Brutto Versand Netto-€

Warenwert netto 10％260,64€欧元10％26,06€

RECHNUNGSBETRAG BRUTTO 286,70€塞特1/1

2019 /

数据

我现在已经尝试了无数次使用这些数据，要么将其清理到缓冲区中，要么将其写入txt或csv中，然后清理，但是没有任何效果，如果我至少可以写的话，它已经很有帮助了它到一个txt，然后从那里去，这一点都不好，但是我是新来的，我的可能性有限：/ 最好是将其以清理后的格式写入到CSV中，添加所有其他发票，然后使用数据-我打算这样做，但是编程很困难xD 我已经去过GUI了，但是这个数据问题很痛

此外，我花了数小时观看视频并试图找到解决方案，但是我无法运行任何东西，甚至可以满足我的需求。我保证，在搜索自己之前，我不会浪费你的时间

如果我在每张发票中都得到一行CSV，并将单词放入不同的单元格中，那么效果就很好，这样我就可以使用它们将它们加起来，并在自学编程的同时使我们新成立的小公司的发展更加明显非常感谢！

Answer 1

如果您只是想将每个单词放入不同的单元格，请运行查找并替换文本字符串。您需要用逗号替换每个中断或空格。在“查找/替换”中添加一个例外以转义现有的逗号（将其用双引号引起来，即23,456->“ 23,456”）。将空格和换行符替换为逗号后，您可以将字符串另存为.csv。如果您只是想提取某些值，那么熟悉Regular Expressions会很有帮助。

Here's some information to get line breaks in .csv files

我如何清除pdf中提取的代码，以便以后使用

1 个答案: