Keras IMDB数据集load_data函数

时间:2020-08-28 07:59:47

标签: tensorflow keras deep-learning nlp

有人可以举例说明ClientID TestDate NumberOp MeanOp 5C 2019-12-12 0 NaN 如何将评论转换为索引。

num_words,index_start参数有什么作用? 我已经阅读了文档,但听不懂。

1 个答案:

答案 0 :(得分:0)

文档位于此处

https://www.tensorflow.org/api_docs/python/tf/keras/datasets/imdb/load_data

它声明“ num_words整数或无。按单词出现的频率(在训练集中)对单词进行排名,并且仅保留最频繁使用的num_words个单词。任何不经常使用的单词将在序列数据中显示为oov_char值。无,将保留所有单词。默认为无,因此将保留所有单词。

我花了很长时间弄清楚类似但无关的东西。

有时,在代码中寻找您想要找出的部分旁边的注释会有所帮助。此外,您可以找到诸如keyword = other-keyword之类的内容,然后查看另一个关键字就是答案。

我真正快速地查看了Keras IMDb代码,并且对该示例使用了相同的方法,但不确定是否与您看到的相同的IMDb Keras示例是否有很多人以多种方式使用该数据集。

num_words通常会根据热门单词的数量提供10,000个您正在训练的单词。

#num_words would be equal to top 10000 words

top_words = 10000
(x_train, y_train), (x_test, y_test) = imdb.load_data(path="imdb.npz",
                                                      num_words=top_words

# INDEX_START as first element in sequence (keras convention)


INDEX_START=1

def preprocess_imdb(review):
    # clean and tokenize
    words_list = text_to_word_sequence(review)
    # init array
    words_index_list = []
    # INDEX_START as first element in sequence (keras convention)
    words_index_list.append(INDEX_START)
    #words_index_list[0] = INDEX_START