有人可以举例说明ClientID TestDate NumberOp MeanOp
5C 2019-12-12 0 NaN
如何将评论转换为索引。
num_words,index_start参数有什么作用? 我已经阅读了文档,但听不懂。
答案 0 :(得分:0)
文档位于此处
https://www.tensorflow.org/api_docs/python/tf/keras/datasets/imdb/load_data
它声明“ num_words整数或无。按单词出现的频率(在训练集中)对单词进行排名,并且仅保留最频繁使用的num_words个单词。任何不经常使用的单词将在序列数据中显示为oov_char值。无,将保留所有单词。默认为无,因此将保留所有单词。
我花了很长时间弄清楚类似但无关的东西。
有时,在代码中寻找您想要找出的部分旁边的注释会有所帮助。此外,您可以找到诸如keyword = other-keyword之类的内容,然后查看另一个关键字就是答案。
我真正快速地查看了Keras IMDb代码,并且对该示例使用了相同的方法,但不确定是否与您看到的相同的IMDb Keras示例是否有很多人以多种方式使用该数据集。
num_words通常会根据热门单词的数量提供10,000个您正在训练的单词。
#num_words would be equal to top 10000 words
top_words = 10000
(x_train, y_train), (x_test, y_test) = imdb.load_data(path="imdb.npz",
num_words=top_words
# INDEX_START as first element in sequence (keras convention)
INDEX_START=1
def preprocess_imdb(review):
# clean and tokenize
words_list = text_to_word_sequence(review)
# init array
words_index_list = []
# INDEX_START as first element in sequence (keras convention)
words_index_list.append(INDEX_START)
#words_index_list[0] = INDEX_START