我正在尝试基于文本挖掘制作预测模型。我很困惑我应该在模型中设置多少功能。我的分析中有1000个文档(因此语料库大约需要700个)。语料库中的术语数量约为20 000,因此它超过了文档数量(P> N)。有这么多功能有什么意义吗?
HashingTF方法中的功能数量应该高于语料库中的术语总数吗?或者我应该把它做得更小(比如512个功能?)
我有点困惑。
答案 0 :(得分:0)
假设您正在谈论仅使用unigrams作为功能,那么我们想要p< ñ。 (这里没有引用消息来源,因为你似乎知道这意味着什么。)
最后,实现p<你可以
选择计数> = k的要素。测量各种k的性能并选择最佳k,或 -
使用所有功能但使用L1正则化。
如果你像你提到的那样使用散列,你应该设置小于偶数512的特征,因为 -