在原始文本或引理/词干过程之后计算单词n-gram?

时间:2017-11-10 09:22:01

标签: information-retrieval n-gram text-analysis stemming lemmatization

我正在考虑在原始文本上使用单词n-gram技术。但我怀疑:

在文本上应用引理/词干后,是否有意义使用单词n-gram?如果没有,为什么我只在原始文件上使用单词n-gram?什么是利弊?

1 个答案:

答案 0 :(得分:1)

在词形化或词干化之后计算单词 n -grams的原因与出现之前的原因相同。有时这会让你误报,例如,(D3),但它通常以你想要的有意义的方式增加召回。

在某些领域,例如短文,词干可能会受到伤害。最好的办法是测试,但总的来说,我会建议词干和大小写折叠,但这实际上取决于你的域名和查询。

Q ="犯罪记录"

  • D1 =" ...有犯罪 记录 ......" (在茎上匹配)
  • D2 =" ...发布罪犯 记录 ..." (正常匹配)
  • D3 =" ...正在进行'顺利犯罪',录制 ......" (词干上的假匹配)

这是一种精确/召回权衡。你可以通过词干(总是)增加召回,你可以通过不堵塞来提高精确度。但这取决于您所服务的查询类型。例如,如果你正在运行代码搜索,那么你几乎不想干预或预处理,因为用户希望输入确切的符号名称,然后找到它们。