项目描述关键字提取

时间:2014-11-10 03:59:37

标签: nlp recommendation-engine stemming pos-tagger

我正在玩一个推荐系统,该系统采用关键的描述性词语和短语,并将其与其他人匹配。具体来说,我专注于啤酒中的口味,用算法搜索maltymedium bitterness之类的东西,将它们拉出来,然后与其他啤酒进行比较,得出味道建议。

目前,我正在努力提取。有哪些技术可以识别单词并将其标准化以便以后处理?

如何提取hoppyhops并将其视为相同的字词,同时请注意very hoppynot enough hops具有不同的修改含义用前面的词语?我相信我可以使用词干来表示复数和后缀/前缀词,但对于对或更复杂的模式呢?这有什么技巧?

1 个答案:

答案 0 :(得分:0)

我首先会忽略细粒度的区别并编制一个词典语义模式列表,这些模式可用于提取某些信息结构 - 例如:

  • <foodstuff> <taste-description> 品味
  • <foodstuff> 品尝 <taste-description>
  • 非常 <taste-description>
  • 不够 <taste-description>

您可以在文本中使用此类模式的实例来推断有用的概念(例如不同的品味描述),然后可以再次使用这些概念来引导extraction of new patterns and thus new concepts