从Keras'重建新闻文本。路透社数据集

时间:2017-10-21 17:25:52

标签: python-3.x data-structures dataset keras reuters

我似乎无法理解Keras'提供的数据集。路透社数据集。

这样的集合如下:

(x_train, y_train), (x_test, y_test) = reuters.load_data()

据我了解" x"数组是来自新闻故事和" y"的字索引的序列(列表)数组。数组是这些序列主题的数组。

但是当我尝试将其中一个序列的单词索引与提供的字典翻译成实际单词时:

wordDict = {y:x for x,y in reuters.get_word_index().items()}  
for index in x_train[0]:
    print (wordDict.get(index))

序列似乎毫无意义。如何将序列转换回原始新闻?

编辑: 找到了类似的帖子here。似乎字典中的索引与数据集中的单词索引不匹配存在问题。但重新下载数据并不能解决我的问题。

1 个答案:

答案 0 :(得分:2)

load_data参数“index_from”的默认值允许实际单词的索引为> 3。 可以使用wordDict.get(index - 3)重建文本。