应用错误收集

打开PDF文件并在那里搜索名称

时间：2011-04-05 12:12:55

标签： ruby-on-rails ruby algorithm search pdf

我有一个PDF文件。我想在那里搜索名字。

如何打开PDF并使用Ruby获取所有文本？
是否有任何算法可以找到名字？
我应该使用什么作为搜索引擎：Sphinx或更简单的东西（只是LIKE sql查询）？

2 个答案:

答案 0 :(得分：6)

要在非结构化文本中查找专有名称，您尝试解决的问题的技术名称为Named Entity Recognition或命名实体提取。有许多不同的自然语言工具包和研究论文，它们实现各种算法以试图解决这个问题。它们都不会达到完美的准确度，但它可能足以满足您的需求。我自己没有尝试过，但Stanford Named Entity Recognizer的网页上有一个Ruby Bindings的链接。

答案 1 :(得分：3)

棘手的问题。这些领域仍然在语义网的研究领域。我只能建议一些曲目，但很想知道你的明确选择。

我会使用pdf-reader：https://github.com/yob/pdf-reader
您可以使用与某些词典匹配的Bloom过滤器。你会假设与字典不匹配的单词是名字......并不总是现实的，但这是第一种方法。要获得更多名称，您可以检查以大写字母开头的单词（不是很好，但我们继续寻找一些基本方法）。一些潜在资源：http://snippets.dzone.com/posts/show/4235
对于您的搜索引擎，使用Rails的两个主要选择是Sphinx和SolR。

希望这有帮助！