我有像
这样的链接 http://www.downloads.com/help.pdf
我想下载它,并解析它以获取文本内容。
我该如何解决这个问题?我还计划标记-izze(如果有这样的单词)提取的文本
答案 0 :(得分:15)
您可以使用pdf-reader gem(示例/ text.rb示例很简单,对我有用):https://github.com/yob/pdf-reader
或命令行实用程序pdftotext。
答案 1 :(得分:3)
Yomu gem也可以为您提取PDF(以及其他MIME类型)的文本。
require 'yomu'
Yomu.new(file_path).text
答案 2 :(得分:0)
您还可以查看我所维护的DocRipper,它提供了一个Ruby接口,用于从多种文档格式中提取文本,包括PDF,doc,docx和sketch。
DocRipper在底层使用pdftotext,避免了Java依赖。
require 'doc_ripper'
DocRipper::rip('/path/to/file.pdf') => "Pdf text"
您可以使用Ruby标准库读取远程文件:
require 'open-uri'
require 'doc_ripper'
tmp_file = open("some_uri")
DocRipper::rip(tmp_file.path)