我正在玩一个推荐系统,该系统采用关键的描述性词语和短语,并将其与其他人匹配。具体来说,我专注于啤酒中的口味,用算法搜索malty
或medium bitterness
之类的东西,将它们拉出来,然后与其他啤酒进行比较,得出味道建议。
目前,我正在努力提取。有哪些技术可以识别单词并将其标准化以便以后处理?
如何提取hoppy
和hops
并将其视为相同的字词,同时请注意very hoppy
和not enough hops
具有不同的修改含义用前面的词语?我相信我可以使用词干来表示复数和后缀/前缀词,但对于对或更复杂的模式呢?这有什么技巧?
答案 0 :(得分:0)
我首先会忽略细粒度的区别并编制一个词典语义模式列表,这些模式可用于提取某些信息结构 - 例如:
<foodstuff>
有 <taste-description>
品味 <foodstuff>
品尝 <taste-description>
<taste-description>
<taste-description>
您可以在文本中使用此类模式的实例来推断有用的概念(例如不同的品味描述),然后可以再次使用这些概念来引导extraction of new patterns and thus new concepts。