有没有办法使用Java从PostScript(.ps,.eps)文件中提取文本?

时间:2009-11-10 00:00:54

标签: java postscript text-extraction

我正在寻找一种类似于PDF Box的解决方案,用于Apache Tika的PDF,但是,PS文件。

感谢。

2 个答案:

答案 0 :(得分:1)

您可以使用Ghostscript转换为pdf,http://www.osalt.com/ghostscript,然后有各种库来处理pdf。

这样做的好处在于您只从PDF中提取,因此只要您可以将其转换为PDF,就可以处理其他格式。

答案 1 :(得分:1)

就像詹姆斯布莱克所说的那样,最好只转换为PDF并使用熟悉的工具。

但是,确实存在pstotext,例如,在其自己的包中的Ubuntu Universe中可用。

Ghostscript本身也带有ps2txt和ps2ascii,也可以这样做。