打开PDF文件并在那里搜索名称

时间:2011-04-05 12:12:55

标签: ruby-on-rails ruby algorithm search pdf

我有一个PDF文件。我想在那里搜索名字。

  1. 如何打开PDF并使用Ruby获取所有文本?
  2. 是否有任何算法可以找到名字?
  3. 我应该使用什么作为搜索引擎:Sphinx或更简单的东西(只是LIKE sql查询)?

2 个答案:

答案 0 :(得分:6)

要在非结构化文本中查找专有名称,您尝试解决的问题的技术名称为Named Entity Recognition或命名实体提取。有许多不同的自然语言工具包和研究论文,它们实现各种算法以试图解决这个问题。它们都不会达到完美的准确度,但它可能足以满足您的需求。我自己没有尝试过,但Stanford Named Entity Recognizer的网页上有一个Ruby Bindings的链接。

答案 1 :(得分:3)

棘手的问题。这些领域仍然在语义网的研究领域。我只能建议一些曲目,但很想知道你的明确选择。

  1. 我会使用pdf-reader:https://github.com/yob/pdf-reader

  2. 您可以使用与某些词典匹配的Bloom过滤器。你会假设与字典不匹配的单词是名字......并不总是现实的,但这是第一种方法。 要获得更多名称,您可以检查以大写字母开头的单词(不是很好,但我们继续寻找一些基本方法)。一些潜在资源:http://snippets.dzone.com/posts/show/4235

  3. 对于您的搜索引擎,使用Rails的两个主要选择是Sphinx和SolR。

  4. 希望这有帮助!