我试图通过使用SGD进行线性回归来预测对yelp的评论是正还是负。我尝试了两种不同的特征提取器。
第一种是字符n-gram,第二种是用空格分隔单词。
但是,我为字符n-gram尝试了不同的n值,发现n值给了我最好的测试误差。
我注意到这个测试错误(0.27)在我的测试数据中)几乎与提取由空格分隔的单词的测试错误相同。
这个巧合背后有原因吗?
字符n-gram不应该有降低测试错误,因为它提取的功能多于单词功能?
字符n-gram:ex。 N = 7 “好餐馆”=> “Goodres”“oodrest”“odresta”“drestau”“restaur”“estaura”“stauran”“taurant”
单词功能: “好餐馆”=> “好”“餐厅”
答案 0 :(得分:3)
看起来n-gram方法只是产生了许多冗余的重叠特征,这些特征对精度没有贡献。