读N个词和词数之间的区别:快速文本中的M

时间:2018-07-06 10:33:21

标签: fasttext

Exclude from import and Compilation

字数:M 表示什么? 为何与读N个字不同?

1 个答案:

答案 0 :(得分:2)

“读取N个单词”中的N是所有数据集中用空格隔开的单词总数。

“单词数M”中的

M是您所有数据集中的唯一单词数,它构成您的词汇表。但是,实际上,如果将单词出现次数最小的选项“ minCount”设置为大于1的数字,则该数字实际上可能小于数据集中唯一单词的数目。

为了说明这一点,这是一个示例。 假设您有一个数据集:

__label__0 this sentence is an example
__label__1 here is another example

如果您使用mincount = 1运行快速文本,

  • 已读单词数为9(N):[此句子是一个示例,这里是另一个示例]
  • 大于mincount的唯一单词数将为7(M):[此句子是一个示例,这里是另一个]

如果您使用mincount = 2运行fasttext,则

  • 已读单词数为9(N):[此句子是一个示例,这里是另一个示例]
  • 大于mincount的唯一单词数将为2(M):[是示例]