应用错误收集

我试图通过使用SGD进行线性回归来预测对yelp的评论是正还是负。我尝试了两种不同的特征提取器。
第一种是字符n-gram，第二种是用空格分隔单词。
但是，我为字符n-gram尝试了不同的n值，发现n值给了我最好的测试误差。
我注意到这个测试错误（0.27）在我的测试数据中）几乎与提取由空格分隔的单词的测试错误相同。

这个巧合背后有原因吗？
字符n-gram不应该有降低测试错误，因为它提取的功能多于单词功能？

字符n-gram：ex。 N = 7 “好餐馆”=＆gt; “Goodres”“oodrest”“odresta”“drestau”“restaur”“estaura”“stauran”“taurant”

单词功能： “好餐馆”=＆gt; “好”“餐厅”

字符n-gram与NLP中的单词特征

1 个答案: