使用GhostScript将PostScript转换为文本

时间:2013-11-11 17:44:13

标签: text unicode fonts ghostscript postscript

我想从PostScript文档中提取Text数据。问题是当我使用GhostScript执行此操作时,某些文本将被正常提取,而其他文本将被转换为奇怪的符号字符。

我意识到通常被提取的文本是由于许可限制,GhostScript不会将它们嵌入PDF中的字体。而且,具有讽刺意味的是,没有许可限制的字体(通常嵌入在PDF中)没有被正确地转换回来。

我尝试使用txtwrite设备将PostScript直接转换为Text以及pdfwrite设备,首先将PS转换为PDF,然后从PDF文档中提取文本,但它们都不起作用。

我想也许我可以用不支持的字体替换所有字体,以便正确提取文本数据,但是没有简单的方法可以做到这一点。

你认为我应该怎么做?

1 个答案:

答案 0 :(得分:1)

原因通常是字符以非标准方式编码。我担心你没有太多可以做的事情,除非可能通过比较可读的PostScript和提取的文本来找出“奇怪的符号字符”对应于什么实际的字符。然后,您可以通过用想要的字符替换怪异来重建原始文本。