Question

我有像

这样的链接

      http://www.downloads.com/help.pdf

我想下载它，并解析它以获取文本内容。

我该如何解决这个问题？我还计划标记-izze（如果有这样的单词）提取的文本

Answer 1

您可以使用pdf-reader gem（示例/ text.rb示例很简单，对我有用）：https://github.com/yob/pdf-reader

或命令行实用程序pdftotext。

Answer 2

Yomu gem也可以为您提取PDF（以及其他MIME类型）的文本。

require 'yomu'
Yomu.new(file_path).text

Answer 3

您还可以查看我所维护的DocRipper，它提供了一个Ruby接口，用于从多种文档格式中提取文本，包括PDF，doc，docx和sketch。

DocRipper在底层使用pdftotext，避免了Java依赖。

require 'doc_ripper'

DocRipper::rip('/path/to/file.pdf') => "Pdf text"

您可以使用Ruby标准库读取远程文件：

require 'open-uri'
require 'doc_ripper'

tmp_file = open("some_uri")
DocRipper::rip(tmp_file.path)