我关注this blog。在其中他讲述了如何在keras中构建语言模型。他展示了如何在keras中构建一个简单的模型。
分离后,我们需要对输出字进行一次热编码。这意味着将它从一个整数转换为一个0值的向量,一个用于词汇表中的每个单词,用1表示单词整数值索引处的特定单词。
这样,模型学会预测下一个单词的概率分布,除了下一个实际单词之外的所有单词,从中学习的基本事实为0。
Keras提供to_categorical(),可用于对每个输入 - 输出序列对的输出字进行热编码。
他使用以下内容:
y = to_categorical(y, num_classes=vocab_size)
在他的情况下,词汇量大小是可管理的。我正在使用大小> gt的词汇表1亿。我想我不应该像输出y
一样使用单热编码。还有其他选择吗?