我有一个pdf文件,其中包含一些垃圾数据。我需要找到一种删除它的方法,因为它也可以通过pdfminer提取。
我尝试使用pdfminer从pdf中提取文本
home:~$ pdf2txt.py -o result.txt result.pdf
这是未选中时的实际文本
有关pdf的其他信息
(pdfparse) home:~/Documents/pdfparse/pdfminer/tools$ pdfinfo /home/user/result.pdf
Tagged: no
UserProperties: no
Suspects: no
Form: none
JavaScript: no
Pages: 1
Encrypted: no
Page size: 595 x 842 pts (A4)
Page rot: 0
File size: 28651 bytes
Optimized: no
PDF version: 1.3
(pdfparse) home:~/Documents/pdfparse/pdfminer/tools$ pdffonts /home/user/result.pdf
name type encoding emb sub uni object ID
------------------------------------ ----------------- ---------------- --- --- --- ---------
Arial,Bold TrueType WinAnsi no no no 11 0
Arial TrueType WinAnsi no no no 12 0
(pdfparse) home:~/Documents/pdfparse/pdfminer/tools$