如何使用Tensorflow中的word2vec根据电影的描述来预测电影的类型?
我已经导入IMDB数据以获取所有描述和体裁形式的文本。我要做的第一件事是仅将流派提取到字典中,因此每个流派都有一个int表示形式,例如流派= {0:“动作”,1:“喜剧”,..}。现在,我可以建立一个像这样的热门载体:
def to_one_hot(data_point_index, vocab_size):
temp = np.zeros(vocab_size)
temp[data_point_index] = 1
return temp
类型“动作”的向量看起来像这样[1,0,0,0,0,...,0]。我现在应该如何进行描述?我真的不知道如何处理它们。一个描述中有很多单词,也有许多描述。我该如何处理与描述有关的word2vec?