应用错误收集

在词形化或词干化之后计算单词 n -grams的原因与出现之前的原因相同。有时这会让你误报，例如，（D3），但它通常以你想要的有意义的方式增加召回。

在某些领域，例如短文，词干可能会受到伤害。最好的办法是测试，但总的来说，我会建议词干和大小写折叠，但这实际上取决于你的域名和查询。

Q =＆＃34;犯罪记录＆＃34;

这是一种精确/召回权衡。你可以通过词干（总是）增加召回，你可以通过不堵塞来提高精确度。但这取决于您所服务的查询类型。例如，如果你正在运行代码搜索，那么你几乎不想干预或预处理，因为用户希望输入确切的符号名称，然后找到它们。