我正在寻找一种类似于PDF Box的解决方案,用于Apache Tika的PDF,但是,PS文件。
感谢。
答案 0 :(得分:1)
您可以使用Ghostscript转换为pdf,http://www.osalt.com/ghostscript,然后有各种库来处理pdf。
这样做的好处在于您只从PDF中提取,因此只要您可以将其转换为PDF,就可以处理其他格式。
答案 1 :(得分:1)
就像詹姆斯布莱克所说的那样,最好只转换为PDF并使用熟悉的工具。
但是,确实存在pstotext,例如,在其自己的包中的Ubuntu Universe中可用。
Ghostscript本身也带有ps2txt和ps2ascii,也可以这样做。