我正在考虑在原始文本上使用单词n-gram技术。但我怀疑:
在文本上应用引理/词干后,是否有意义使用单词n-gram?如果没有,为什么我只在原始文件上使用单词n-gram?什么是利弊?
答案 0 :(得分:1)
在词形化或词干化之后计算单词 n -grams的原因与出现之前的原因相同。有时这会让你误报,例如,(D3),但它通常以你想要的有意义的方式增加召回。
在某些领域,例如短文,词干可能会受到伤害。最好的办法是测试,但总的来说,我会建议词干和大小写折叠,但这实际上取决于你的域名和查询。
Q ="犯罪记录"
这是一种精确/召回权衡。你可以通过词干(总是)增加召回,你可以通过不堵塞来提高精确度。但这取决于您所服务的查询类型。例如,如果你正在运行代码搜索,那么你几乎不想干预或预处理,因为用户希望输入确切的符号名称,然后找到它们。