如果我有1000个令牌(我假设令牌是预处理数据集后的特征),那么从1000个令牌(单词)生成多少个双字母特征?它是否每个标记都会与词汇表中的所有其他标记组成一个二元组合?
我问这个问题,因为我必须预先填写weka词汇的数量
答案 0 :(得分:0)
您无法仅根据令牌数预先计算此值。 Bigrams是并排出现的令牌对(它是来自n-gram模型的术语,其中您有序列的概念)。因此,为了计算双字母组的数量,您必须在数据中滑动2个标记窗口,并检查您找到的对数。
如果你有来自某些数据X的N个令牌,你只能说,那个bigrams B的数量限制如下:N <= B <= N^2
,但确切的数字需要上面概述的程序。