可以训练NLTK在一个句子中检测“组成”的名字吗?

时间:2017-04-27 00:09:24

标签: nlp nltk nltk-trainer

我最近开始使用NLTK查看数据提取。虽然有几个用于检测“真实”名称,位置等的示例和技术。我还没有找到一种有效的方法来检测“组成”或“虚构”名称。示例字符串将是:

他的名字是wuzzywugg,他有一只名叫fizzbuzz的狗

我想训练NLTK以便能够检测到“wuzzywugg”和“fizzbuzz”是角色的名字。看到一些依赖于以大写字母开头的单词的解决方案,但这感觉非常“hacky” 并且容易出错和误报。

如何解决此问题的任何帮助将不胜感激。提前谢谢。

1 个答案:

答案 0 :(得分:0)

我在处理俄罗斯民间故事时遇到了同样的问题,事实证明他们的大部分名字都没有出现在西部的Gazeteers。快速方法可能是使用词性标签并仅获得NNP(专有名词)。检查一下:http://www.nltk.org/book/ch05.html

这对我来说完全不起作用,我的方法包括实际提取所有名词短语(来自解析树的NP节点),然后提取我自己注释的特征向量以构建ML分类器。您可以在此处找到更多信息:http://ieeexplore.ieee.org/document/7489041/