使用ROR解析PDF文档

时间:2013-10-29 12:52:05

标签: ruby-on-rails ruby

寻找一种方法将PDF(只包含文本)解析为纯文本。我看到之前曾经问过使用Ruby进行PDF解析,但答案已经有几年了,而且不适合使用rails应用程序。

是否有宝石可以帮助解决这个问题?

2 个答案:

答案 0 :(得分:2)

这就是docsplit gem的全部内容。用法示例:

pdfs = Dir['storage/originals/*.pdf']
Docsplit.extract_text(pdfs, :ocr => false)

这个宝石很棒,它可以转换.doc.odt等...来获取文字。

此外,它还得到了一家非常专业的公司的支持:http://www.documentcloud.org/

答案 1 :(得分:0)

This似乎很有名。我没试过,但看起来很相关。