Question

我使用ghostscript 8.71从PDF页面中提取文本。

我使用的命令是：

gswin32c -q -sFONTPATH=c:\\fonts -dNODISPLAY -dSAFER -dDELAYBIND \
         -dWRITESYSTEMDICT -dSIMPLE -fps2ascii.ps -dFirstPage=1  \
         -dLastPage=1 input.pdf -dQUIET

我正在使用<stdout>将文本定向到另一个文件。

但问题是Ghostscript没有提取一些可搜索的文本项。

未提取某些字体文本，例如：Verdana以粗体字符表示。但是Ghostscript正在打开字体文件。

我可以上传PDF文件，但在这里我没有找到任何上传选项。如果有任何选项，请告诉我。

Answer 1

您是否也尝试使用其他命令行工具来提取文本，例如pdftotext from the XPDF package？这些比较如何？

您能否详细了解输出中究竟缺少的内容？只是某些类型的字符，只是某些字体，只是某些页面？

此外，您正在将Linux / Unix语法（"gs"）与Windows语法（"c:\fonts"）混合使用。在Windows系统上，托管字体的默认位置通常是 c： \ Windows \ fonts ...

哦，是的：让您查看有问题的PDF文件肯定有帮助。

Ghostscript没有从PDF文件中提取所有文本

1 个答案: