Question

寻找一种方法将PDF（只包含文本）解析为纯文本。我看到之前曾经问过使用Ruby进行PDF解析，但答案已经有几年了，而且不适合使用rails应用程序。

是否有宝石可以帮助解决这个问题？

Answer 1

这就是docsplit gem的全部内容。用法示例：

pdfs = Dir['storage/originals/*.pdf']
Docsplit.extract_text(pdfs, :ocr => false)

这个宝石很棒，它可以转换.doc或.odt等...来获取文字。

此外，它还得到了一家非常专业的公司的支持：http://www.documentcloud.org/

Answer 2

This似乎很有名。我没试过，但看起来很相关。