Exclude from import and Compilation
字数:M 表示什么? 为何与读N个字不同?
答案 0 :(得分:2)
“读取N个单词”中的N是所有数据集中用空格隔开的单词总数。
“单词数M”中的M是您所有数据集中的唯一单词数,它构成您的词汇表。但是,实际上,如果将单词出现次数最小的选项“ minCount”设置为大于1的数字,则该数字实际上可能小于数据集中唯一单词的数目。
为了说明这一点,这是一个示例。 假设您有一个数据集:
__label__0 this sentence is an example
__label__1 here is another example
如果您使用mincount = 1运行快速文本,
如果您使用mincount = 2运行fasttext,则