在ruby中从PDF中提取文本(我有链接到PDF)

时间:2011-02-05 05:12:37

标签: ruby pdf

我有像

这样的链接
      http://www.downloads.com/help.pdf

我想下载它,并解析它以获取文本内容。

我该如何解决这个问题?我还计划标记-izze(如果有这样的单词)提取的文本

3 个答案:

答案 0 :(得分:15)

您可以使用pdf-reader gem(示例/ text.rb示例很简单,对我有用):https://github.com/yob/pdf-reader

或命令行实用程序pdftotext。

答案 1 :(得分:3)

Yomu gem也可以为您提取PDF(以及其他MIME类型)的文本。

require 'yomu'
Yomu.new(file_path).text

答案 2 :(得分:0)

您还可以查看我所维护的DocRipper,它提供了一个Ruby接口,用于从多种文档格式中提取文本,包括PDF,doc,docx和sketch。

DocRipper在底层使用pdftotext,避免了Java依赖。

require 'doc_ripper'

DocRipper::rip('/path/to/file.pdf') => "Pdf text"

您可以使用Ruby标准库读取远程文件:

require 'open-uri'
require 'doc_ripper'

tmp_file = open("some_uri")
DocRipper::rip(tmp_file.path)