文本挖掘中的功能数量

时间:2017-07-19 13:24:18

标签: machine-learning text-mining text-classification

我正在尝试基于文本挖掘制作预测模型。我很困惑我应该在模型中设置多少功能。我的分析中有1000个文档(因此语料库大约需要700个)。语料库中的术语数量约为20 000,因此它超过了文档数量(P> N)。有这么多功能有什么意义吗?

HashingTF方法中的功能数量应该高于语料库中的术语总数吗?或者我应该把它做得更小(比如512个功能?)

我有点困惑。

1 个答案:

答案 0 :(得分:0)

假设您正在谈论仅使用unigrams作为功能,那么我们想要p< ñ。 (这里没有引用消息来源,因为你似乎知道这意味着什么。)

最后,实现p<你可以

  1. 选择计数> = k的要素。测量各种k的性能并选择最佳k,或 -

  2. 使用所有功能但使用L1正则化。

  3. 如果你像你提到的那样使用散列,你应该设置小于偶数512的特征,因为 -

    1. n = 700且p = 512仍然太偏斜。
    2. 通常,只有极少数重要的单词。在你的情况下甚至可能不到50。您可以尝试哈希桶的数量= {10,20,50,100,500,1000}并选择最好的一个。
    3. 祝你好运!