使用Apache Tika PDF Parser替换文本

时间:2019-05-04 17:59:16

标签: python-3.x pdf pycharm apache-tika

我最近尝试了各种PDF解析器(tika,PDFminer.six等)将所有内容提取到文本文件中。使用PDFminer.six,我没有任何问题,并且提取的文本没有任何问题。但是使用tika我遇到了一些问题。换句话说,使用以下代码:

import tika
from tika import parser
tika.initVM()
parsed = parser.from_file(PDF_File.pdf)
#print(parsed["metadata"])
print(parsed["content"])
text_file = open("Output.txt", "w", encoding="utf-8")
text_file.write(parsed["content"])
text_file.close()

我可以看到大多数行(但不是全部)都缺少第一个字符,该字符位于文本文档的上方:

  

m

     

i

     

2

     

[....]

     

来自较长时间公开文件的数据。1但是,这种趋势可能不会   一定会帮助投资者

     

从更大范围内提取有用信息的成本更高   复杂的披露``布卢姆菲尔德

     

002�。

看起来每行的第一个字符已替换并插入到实际文本上方。但是,这对于整个文档都是无效的,对于某些段落,第一行是完整的,从第二行开始,第一个字符已被替换...

社区中遇到类似问题并找到解决方案的任何人?

任何帮助表示赞赏!

P.S。我正在使用Python 3.6.7和Pycharm Community Edition 2019.1。

0 个答案:

没有答案