GNU Ghostscript能够将pdf文件转换为终端中的.txt(文本文件)。
gs -sDEVICE=txtwrite -o output.txt input.pdf
我想知道它是如何完成这项任务的?它是否使用OCR?
我不是在寻找一个非常沉重的解释,但只是向正确的方向推进(链接指南等也会这样做)。
谢谢!
答案 0 :(得分:0)
不,它没有做OCR,这就是它有限制的原因。它有多种技术,并以层次结构的方式使用它们:
由于Ghostscript和相关的txtwrite设备是开源的,因此您可以轻松阅读源代码以获取更多信息。