提取pdf中的无效数据,同时从中提取文本

时间:2019-06-06 07:38:56

标签: python pdfminer pdf-parsing

我有一个pdf文件,其中包含一些垃圾数据。我需要找到一种删除它的方法,因为它也可以通过pdfminer提取。

我尝试使用pdfminer从pdf中提取文本

home:~$ pdf2txt.py -o result.txt result.pdf

我需要删除选中时显示的垃圾文本selected

这是未选中时的实际文本

not selected

有关pdf的其他信息

(pdfparse) home:~/Documents/pdfparse/pdfminer/tools$ pdfinfo /home/user/result.pdf
Tagged:         no
UserProperties: no
Suspects:       no
Form:           none
JavaScript:     no
Pages:          1
Encrypted:      no
Page size:      595 x 842 pts (A4)
Page rot:       0
File size:      28651 bytes
Optimized:      no
PDF version:    1.3
(pdfparse) home:~/Documents/pdfparse/pdfminer/tools$ pdffonts /home/user/result.pdf
name                                 type              encoding         emb sub uni object ID
------------------------------------ ----------------- ---------------- --- --- --- ---------
Arial,Bold                           TrueType          WinAnsi          no  no  no      11  0
Arial                                TrueType          WinAnsi          no  no  no      12  0
(pdfparse) home:~/Documents/pdfparse/pdfminer/tools$ 

0 个答案:

没有答案