我试图将pdf转换为文本文件。 我使用此命令执行转换:
gs -dBATCH -dNOPAUSE -sDEVICE=txtwrite -sOutputFile=output.txt input.pdf
Ghostscript版本是9.07。
我得到PDF格式的所有文字。如果可能的话,我想保留文本文件中的空白行。
由于
答案 0 :(得分:1)
你应该升级,当前版本的Ghostscript是9.18,很快就会发布9.19。每个临时版本都包含对txtwrite设备的修复。
虽然PDF文件确实不包含空白行,但txtwrite设备确实有一种模式,它会尝试通过在文本文件中使用空格和空行来生成原始布局的合理表示。
这是当前版本的txtwrite中的默认操作,因此您应该已经获得此操作,除非您选择了不同的TextFormat。
这种模式具有很高的启发性,容易上当,不能很好地处理上标,下标,重要的点大小变化以及可能使布局难以重现的其他属性。显然,如果没有看到您的输入文件,我无法告诉您。