我最近尝试了各种PDF解析器(tika,PDFminer.six等)将所有内容提取到文本文件中。使用PDFminer.six,我没有任何问题,并且提取的文本没有任何问题。但是使用tika我遇到了一些问题。换句话说,使用以下代码:
import tika
from tika import parser
tika.initVM()
parsed = parser.from_file(PDF_File.pdf)
#print(parsed["metadata"])
print(parsed["content"])
text_file = open("Output.txt", "w", encoding="utf-8")
text_file.write(parsed["content"])
text_file.close()
我可以看到大多数行(但不是全部)都缺少第一个字符,该字符位于文本文档的上方:
m
i
2
[....]
来自较长时间公开文件的数据。1但是,这种趋势可能不会 一定会帮助投资者
从更大范围内提取有用信息的成本更高 复杂的披露``布卢姆菲尔德
002�。
看起来每行的第一个字符已替换并插入到实际文本上方。但是,这对于整个文档都是无效的,对于某些段落,第一行是完整的,从第二行开始,第一个字符已被替换...
社区中遇到类似问题并找到解决方案的任何人?
任何帮助表示赞赏!
P.S。我正在使用Python 3.6.7和Pycharm Community Edition 2019.1。