使用Smalot PDF解析器解析PDF时文本格式出错

时间:2017-09-20 06:54:39

标签: php pdf tcpdf pdf-parsing

我试图使用Smalot PDF Parser解析pdf,但问题是文本格式不正确。它显示了单词字母之间的空格。
例如:单词" Letter"写作" L e tt e r"。我该怎么纠正呢? 此外,Smalot PDF Parser提供的文档还不够。我需要更多文档来详细介绍PDF Parser。如果有人拥有它,请给我更多文件。 谢谢!

1 个答案:

答案 0 :(得分:0)

尝试从PDF中提取文本总是很难。 这是因为PDF文档不是WYSIWYG格式,您应该将它们视为指令容器。

提取文字意味着重播'这些指令是为了找出在什么位置绘制的字母,然后应用一些启发式方法来确定类似于"这些字母彼此接近,它们应该连接在一起#34;。

它必须是php吗?