python-3.x - 即使在sklearn中使用交叉验证，逻辑回归也会过度使用？

我正在使用sklearn实现一个逻辑回归模型，用于Kaggle的文本分类竞赛。

当我使用unigram时，有23,617个功能。最好的mean_test_score交叉验证搜索（sklearn的GridSearchCV）给了我类似于我从Kaggle获得的分数，使用最好的模型。
如果我使用bigram，有1,046,524个功能。与unigram相比，GridSearchCV给了我一个更好的mean_test_score，但是使用这个新模型我在Kaggle得分低得多。

我想原因可能是过度拟合，因为我的功能太多了。我试图将GridSearchCV设置为5倍甚至2倍，但分数仍然不一致。

它是否真的表明我的第二个模型过度拟合，即使在验证阶段？如果是这样，我如何使用sklearn调整逻辑模型的正则化项？任何建议都表示赞赏！