Keras IMDB数据集0与ovv_char

时间:2019-08-17 23:15:54

标签: python tensorflow keras

我正在查看Keras preprocessed IMDB dataset的文档,内容为:

  

按照惯例,“ 0”不代表特定单词,而是用于编码任何未知单词。

但是,尝试时,我在数据中看不到“ 0”:

(inputTrain, yTrain), (inputTest, yTest) = imdb.load_data(num_words=vocabSize)

我想念什么吗?我也看不到预处理代码here中添加了“ 0”。

1 个答案:

答案 0 :(得分:1)

  

按照惯例,“ 0”不代表特定单词,而是用于编码任何未知单词。

此处的文档有误。在Keras IMDB数据集中,值:

  • “ 0”代表填充(即,使所有序列具有所需的相同长度)
  • “ 1”代表开始标记,即表示文档的开始,
  • “ 2”代表OOV(词库外)令牌,即表示所有不在词典中或在文档中使用的未知单词的令牌。
  • >

因此,在Keras IMDB数据集中,“ 2”用于未知单词,而不是“ 0”。