怎么估计功能总数?

时间:2014-02-04 15:59:36

标签: machine-learning weka text-classification

如果我有1000个令牌(我假设令牌是预处理数据集后的特征),那么从1000个令牌(单词)生成多少个双字母特征?它是否每个标记都会与词汇表中的所有其他标记组成一个二元组合?

我问这个问题,因为我必须预先填写weka词汇的数量

1 个答案:

答案 0 :(得分:0)

您无法仅根据令牌数预先计算此值。 Bigrams是并排出现的令牌对(它是来自n-gram模型的术语,其中您有序列的概念)。因此,为了计算双字母组的数量,您必须在数据中滑动2个标记窗口,并检查您找到的对数。

如果你有来自某些数据X的N个令牌,你只能说,那个bigrams B的数量限制如下:N <= B <= N^2,但确切的数字需要上面概述的程序。