docsplit gem pdf to text

时间:2015-04-28 16:09:59

标签: ruby-on-rails ruby pdf docsplit

基本上我遇到的问题与此处讨论的相同:http://blog.joshsoftware.com/2014/08/13/pdf-to-plain-text-processing-using-docsplit/ 但他们在docsplit中提出的解决方案并不起作用。

 Docsplit.extract_text(filepath, {:pdf_opts => ‘-layout’, output: ‘tmp_text_file’})

:pdf_opts => '-layout'选项无法执行任何操作,我无法找到有关此类选项的任何文档,因此我在输出文本文件中每行都会得到一个单词。

有谁知道如何获得准确的文本文件?

谢谢

1 个答案:

答案 0 :(得分:1)

如果您仔细阅读博客文章内部处理

 :pdf_opts => ‘-layout’
docsplit gem的master分支尚不支持

。为此,您需要使用https://github.com/documentcloud/docsplit/pull/114。所以使用

gem 'docsplit', git: 'git://github.com/narutosanjiv/docsplit.git'

希望这会有所帮助。如果您仍然遇到任何问题,请告诉我。