标签: php
我知道有关此主题的一些问题。
我需要一个框架/脚本/解决方案通过php 从PDF文件中获取纯文本。
是否存在如何从PDF文件中获取纯文本的解决方案?
(是的,我搜索了这几个小时。这是最后一次机会。)
答案 0 :(得分:1)
在linux系统上,只需使用pdftotext(使用shell_exec)
echo `pdftotext in.pdf out.txt`;
PS:看看这个article,我不知道它是否有用。
答案 1 :(得分:0)
我相信你可以通过使用处理OCR的google docs API来解决问题。
它转换图像 到明文,所以你首先必须使用GhostScript和ImageMagick或其他东西将pdf转换为图像