我正在尝试使用此命令将PDF转换为带有ghostscript的文本: -dBATCH -dNOPAUSE -sDEVICE = txtwrite -sOutputFile = bla.txt c:\ temp \ example.pdf
我的问题在于字段/列的分离。我的一些字段在中间没有任何空格或制表符分隔,例如三列“CAT”,“DOG”,“12345”将输出为CATDOG12345。
有什么方法可以指定要使用的分隔符,所以我的文字会出现“CAT | DOG | 12345”?
提前致谢
答案 0 :(得分:0)
您可以修改来源。然而,除非原文在文本元素之间没有空格,否则这根本不应该发生。你没有说你正在使用什么版本的Ghostscript,而你还没有提供一个例子,所以它真的不能说更多。
您始终可以以伪XML格式输出文本,并自行获取片段及其位置。