当词汇量非常大时,替代单热编码以输出到模型

时间:2018-05-31 11:20:47

标签: nlp keras language-model

我关注this blog。在其中他讲述了如何在keras中构建语言模型。他展示了如何在keras中构建一个简单的模型。

  

分离后,我们需要对输出字进行一次热编码。这意味着将它从一个整数转换为一个0值的向量,一个用于词汇表中的每个单词,用1表示单词整数值索引处的特定单词。

     

这样,模型学会预测下一个单词的概率分布,除了下一个实际单词之外的所有单词,从中学习的基本事实为0。

     

Keras提供to_categorical(),可用于对每个输入 - 输出序列对的输出字进行热编码。

他使用以下内容:

y = to_categorical(y, num_classes=vocab_size)

在他的情况下,词汇量大小是可管理的。我正在使用大小> gt的词汇表1亿。我想我不应该像输出y一样使用单热编码。还有其他选择吗?

0 个答案:

没有答案