我如何清除pdf中提取的代码,以便以后使用

时间:2019-11-21 17:03:47

标签: python apache-tika

我正在尝试从发票(pdf)中提取数据,将数据写入CSV并将所需信息提取到GUI中(例如,该周售出了多少产品)

我不能使用pypdf,因为Windows中的“打印到pdf”显然存储了它作为某种图片或其他东西生成的pfds。 供参考:Pypdf extracts code from one PDF, but not from another?

我的问题:

我正在使用此代码提取数据(该网站上的一个好人已经帮助了我)

from tika import parser
raw = parser.from_file('2.pdf')
print(raw['content'])

那给了我

  

Schickmaier产品Excel.xlsx

     

LIEFERSCHEIN

     

Kunde客户地址Adresse地址

     

地址数据数据

     

K / DB-Nr。 211联系人

     

Preis / N M Gesamtpreis

     

Bio Erdbeer-Chilischokolade 3,05€20 61,09€Bio Beuscherl 5,23€6   31,36€Bio ChiliconCarne 5,98€15 89,77€Bio Geschnetzeltes 5,23€   15 78,41€

     

Versand Brutto Versand Netto-€

     

Warenwert netto 10%260,64€欧元10%26,06€

     

RECHNUNGSBETRAG BRUTTO 286,70€塞特1/1

     

2019 /

     

数据

我现在已经尝试了无数次使用这些数据,要么将其清理到缓冲区中,要么将其写入txt或csv中,然后清理,但是没有任何效果,如果我至少可以写的话,它已经很有帮助了它到一个txt,然后从那里去,这一点都不好,但是我是新来的,我的可能性有限:/ 最好是将其以清理后的格式写入到CSV中,添加所有其他发票,然后使用数据-我打算这样做,但是编程很困难xD 我已经去过GUI了,但是这个数据问题很痛

此外,我花了数小时观看视频并试图找到解决方案,但是我无法运行任何东西,甚至可以满足我的需求。 我保证,在搜索自己之前,我不会浪费你的时间

如果我在每张发票中都得到一行CSV,并将单词放入不同的单元格中,那么效果就很好,这样我就可以使用它们将它们加起来,并在自学编程的同时使我们新成立的小公司的发展更加明显 非常感谢!

1 个答案:

答案 0 :(得分:0)

如果您只是想将每个单词放入不同的单元格,请运行查找并替换文本字符串。您需要用逗号替换每个中断或空格。在“查找/替换”中添加一个例外以转义现有的逗号(将其用双引号引起来,即23,456->“ 23,456”)。将空格和换行符替换为逗号后,您可以将字符串另存为.csv。如果您只是想提取某些值,那么熟悉Regular Expressions会很有帮助。

Here's some information to get line breaks in .csv files