Ghostscript没有从PDF文件中提取所有文本

时间:2010-09-01 07:20:07

标签: pdf ghostscript

我使用ghostscript 8.71从PDF页面中提取文本。

我使用的命令是:

gswin32c -q -sFONTPATH=c:\\fonts -dNODISPLAY -dSAFER -dDELAYBIND \
         -dWRITESYSTEMDICT -dSIMPLE -fps2ascii.ps -dFirstPage=1  \
         -dLastPage=1 input.pdf -dQUIET

我正在使用<stdout>将文本定向到另一个文件。

但问题是Ghostscript没有提取一些可搜索的文本项。

未提取某些字体文本,例如:Verdana以粗体字符表示。但是Ghostscript正在打开字体文件。

我可以上传PDF文件,但在这里我没有找到任何上传选项。如果有任何选项,请告诉我。

1 个答案:

答案 0 :(得分:0)

您是否也尝试使用其他命令行工具来提取文本,例如pdftotext from the XPDF package?这些比较如何?

您能否详细了解输出中究竟缺少的内容?只是某些类型的字符,只是某些字体,只是某些页面?

此外,您正在将Linux / Unix语法("gs")与Windows语法("c:\fonts")混合使用。在Windows系统上,托管字体的默认位置通常是 c: \ Windows \ fonts ...

哦,是的:让您查看有问题的PDF文件肯定有帮助。