Ghostscript PDF到文本分隔符

时间:2017-06-26 14:41:21

标签: ghostscript

我正在尝试使用此命令将PDF转换为带有ghostscript的文本: -dBATCH -dNOPAUSE -sDEVICE = txtwrite -sOutputFile = bla.txt c:\ temp \ example.pdf

我的问题在于字段/列的分离。我的一些字段在中间没有任何空格或制表符分隔,例如三列“CAT”,“DOG”,“12345”将输出为CATDOG12345。

有什么方法可以指定要使用的分隔符,所以我的文字会出现“CAT | DOG | 12345”?

提前致谢

1 个答案:

答案 0 :(得分:0)

您可以修改来源。然而,除非原文在文本元素之间没有空格,否则这根本不应该发生。你没有说你正在使用什么版本的Ghostscript,而你还没有提供一个例子,所以它真的不能说更多。

您始终可以以伪XML格式输出文本,并自行获取片段及其位置。