我试图使用Smalot PDF Parser解析pdf,但问题是文本格式不正确。它显示了单词字母之间的空格。
例如:单词" Letter"写作" L e tt e r"。我该怎么纠正呢?
此外,Smalot PDF Parser提供的文档还不够。我需要更多文档来详细介绍PDF Parser。如果有人拥有它,请给我更多文件。
谢谢!
答案 0 :(得分:0)
尝试从PDF中提取文本总是很难。 这是因为PDF文档不是WYSIWYG格式,您应该将它们视为指令容器。
提取文字意味着重播'这些指令是为了找出在什么位置绘制的字母,然后应用一些启发式方法来确定类似于"这些字母彼此接近,它们应该连接在一起#34;。
它必须是php吗?