我正在使用手套嵌入,我对嵌入中的tokens
和vocab
感到困惑。像这样:
Common Crawl (840B tokens, 2.2M vocab, cased, 300d vectors, 2.03 GB download)
tokens
和vocab
分别是什么意思?有什么区别?
答案 0 :(得分:5)
在NLP令牌中,指的是语料库中“单词”的总数。我把单词放在引号中,因为定义因任务而异。词汇是唯一“单词”的数量。
应该是vocab< = tokens。
的情况答案 1 :(得分:0)
token 是你的语料训练后得到的,和词的大小不一样。
一个长度为 10 的单词,这个单词的标记可能是 2 或 3 个标记,它基本上代表了您可以如何更好地表示您的单词并使其对您的模型有意义。