多字词的词典,如低脂牛奶?

时间:2017-10-02 12:42:11

标签: nlp

我不是一个流利的英语发言人,所以也许这个问题对于母语为英语的人来说是微不足道的。

我正在实施一个自然语言处理系统。我需要通过结合其他几个词来提取具有意义的术语。

例如,我应该从“我正在喝低脂牛奶”中提取[“我”,“我”,“饮用”,“低脂肪”,“低脂牛奶”]。有可能吗?

1 个答案:

答案 0 :(得分:0)

通过在单词之间提取语法依赖,您可以实现所需。例如,这里," low"和"胖"是名词"牛奶"的形容词修饰语。找到这些依赖项后,您就可以专注于您需要的依赖项。

要找出这些依赖项,可以使用Java,Python和PHP中提供的Stanford dependency parser。您可以尝试使用解析器here的在线版本。

最后,这个paper让您详细了解解析器和标记的含义。

示例:

对于上面的句子,您将从解析器中获得以下关系,其中" amod"意思是形容词修饰语:

root ( ROOT-0 , drinking-3 ) nsubj ( drinking-3 , I-1 ) aux ( drinking-3 , am-2 ) amod ( milk-6 , low-4 ) amod ( milk-6 , fat-5 ) dobj ( drinking-3 , milk-6 )