Question

我最近尝试了各种PDF解析器（tika，PDFminer.six等）将所有内容提取到文本文件中。使用PDFminer.six，我没有任何问题，并且提取的文本没有任何问题。但是使用tika我遇到了一些问题。换句话说，使用以下代码：

import tika
from tika import parser
tika.initVM()
parsed = parser.from_file(PDF_File.pdf)
#print(parsed["metadata"])
print(parsed["content"])
text_file = open("Output.txt", "w", encoding="utf-8")
text_file.write(parsed["content"])
text_file.close()

我可以看到大多数行（但不是全部）都缺少第一个字符，该字符位于文本文档的上方：

m

i

2

[....]

来自较长时间公开文件的数据。1但是，这种趋势可能不会   一定会帮助投资者

从更大范围内提取有用信息的成本更高   复杂的披露``布卢姆菲尔德

002�。

看起来每行的第一个字符已替换并插入到实际文本上方。但是，这对于整个文档都是无效的，对于某些段落，第一行是完整的，从第二行开始，第一个字符已被替换...

社区中遇到类似问题并找到解决方案的任何人？

任何帮助表示赞赏！

P.S。我正在使用Python 3.6.7和Pycharm Community Edition 2019.1。

使用Apache Tika PDF Parser替换文本

0 个答案: