是否有任何算法或方法可以用来确定句子含义中最不重要的单词? 更一般地说,有没有办法根据每个单词在句子中的重要性为每个单词指定一些数字?通过" important"我的意思是,如果你要从句子中删除这个词,它对意义(低重要性)或对意义的重大影响(高重要性)几乎没有影响。
答案 0 :(得分:2)
这是一个非常模糊的问题。据我所知,你想做关键字提取之类的事情。
POS标记是一个好的开始。它允许您将句子标记为其词性(名词,动词形容词等) - POS Tag NLTK。然后,您可以编写自己的规则,只提取您感兴趣的词性。
Stopword Removal是另一种选择
Keyword Extraction 您可以通过示例阅读大量内容 -
分块
嚓嚓
命名实体识别
构建CFG并解析树
关系提取
我认为阅读本章将提供透视图和代码片段,以帮助您入门。