寻找一种方法将PDF(只包含文本)解析为纯文本。我看到之前曾经问过使用Ruby进行PDF解析,但答案已经有几年了,而且不适合使用rails应用程序。
是否有宝石可以帮助解决这个问题?
答案 0 :(得分:2)
这就是docsplit gem的全部内容。用法示例:
pdfs = Dir['storage/originals/*.pdf']
Docsplit.extract_text(pdfs, :ocr => false)
这个宝石很棒,它可以转换.doc
或.odt
等...来获取文字。
此外,它还得到了一家非常专业的公司的支持:http://www.documentcloud.org/
答案 1 :(得分:0)
This似乎很有名。我没试过,但看起来很相关。