我使用ghostscript 8.71从PDF页面中提取文本。
我使用的命令是:
gswin32c -q -sFONTPATH=c:\\fonts -dNODISPLAY -dSAFER -dDELAYBIND \
-dWRITESYSTEMDICT -dSIMPLE -fps2ascii.ps -dFirstPage=1 \
-dLastPage=1 input.pdf -dQUIET
我正在使用<stdout>
将文本定向到另一个文件。
但问题是Ghostscript没有提取一些可搜索的文本项。
未提取某些字体文本,例如:Verdana以粗体字符表示。但是Ghostscript正在打开字体文件。
我可以上传PDF文件,但在这里我没有找到任何上传选项。如果有任何选项,请告诉我。
答案 0 :(得分:0)
您是否也尝试使用其他命令行工具来提取文本,例如pdftotext
from the XPDF package?这些比较如何?
您能否详细了解输出中究竟缺少的内容?只是某些类型的字符,只是某些字体,只是某些页面?
此外,您正在将Linux / Unix语法("gs"
)与Windows语法("c:\fonts"
)混合使用。在Windows系统上,托管字体的默认位置通常是 c: \ Windows \ fonts ...
哦,是的:让您查看有问题的PDF文件肯定有帮助。