我有一个PDF文件。我想在那里搜索名字。
答案 0 :(得分:6)
要在非结构化文本中查找专有名称,您尝试解决的问题的技术名称为Named Entity Recognition或命名实体提取。有许多不同的自然语言工具包和研究论文,它们实现各种算法以试图解决这个问题。它们都不会达到完美的准确度,但它可能足以满足您的需求。我自己没有尝试过,但Stanford Named Entity Recognizer的网页上有一个Ruby Bindings的链接。
答案 1 :(得分:3)
棘手的问题。这些领域仍然在语义网的研究领域。我只能建议一些曲目,但很想知道你的明确选择。
我会使用pdf-reader:https://github.com/yob/pdf-reader
您可以使用与某些词典匹配的Bloom过滤器。你会假设与字典不匹配的单词是名字......并不总是现实的,但这是第一种方法。 要获得更多名称,您可以检查以大写字母开头的单词(不是很好,但我们继续寻找一些基本方法)。一些潜在资源:http://snippets.dzone.com/posts/show/4235
对于您的搜索引擎,使用Rails的两个主要选择是Sphinx和SolR。
希望这有帮助!