应用错误收集

在一串文本中查找字典中的单词

时间：2011-07-14 14:49:33

标签： search full-text-search nlp named-entity-recognition

如何根据位置和名称字典解析一串自由格式文本以检测位置和名称等内容？在我的特定应用程序中，如果不是更多的条目在我的词典中将有成千上万，所以我很确定只是通过它们一切都是不可能的。另外，有没有办法添加“模糊”匹配，以便您还可以检测字典单词x编辑内的子字符串？如果我没有弄错的话，这属于自然语言处理领域，更具体地说是命名实体识别（NER）;但是，我试图找到有关NER背后的算法和流程的信息已经空洞。我更喜欢使用Python，因为我最熟悉它，尽管我很乐意看其他解决方案。

1 个答案:

答案 0 :(得分：1)

您可以尝试下载Stanford命名实体识别器： http://nlp.stanford.edu/software/CRF-NER.shtml

如果您不想使用其他人的代码并且您想自己做，我建议您查看相关论文中的算法，因为他们使用的条件随机场模型已成为NER相当常见的方法。

我不确定如何在没有更多细节的情况下回答问题的第二部分。您可以修改斯坦福程序，也可以使用词性标注器在文本中标记专有名词。这不会将位置与名称区分开来，但是这样可以很容易地找到距离每个专有名词x个单词的单词。