使用词嵌入解决多类分类问题

时间:2019-06-15 13:24:46

标签: tensorflow machine-learning keras word-embedding

我想知道是否可以使用词嵌入对句子中的每个词进行分类。根据我的研究结果,生成了一个tokenizer对象,该对象用于将句子中的单词映射为整数。这将产生一个2D向量,其中将句子中的每个单词映射到其中。但是,该二维向量表示单词的“句子”,并且每个句子具有单个标签分类。

到目前为止,我的代码是:

from keras.preprocessing.text import Tokenizer

tokenizer = Tokenizer(num_words=8000)
tokenizer.fit_on_texts(sentences_train)
sequences = tokenizer.texts_to_sequences(sentences_train)

word_index = tokenizer.word_index
print('Found %s unique tokens.' % len(word_index))

data = pad_sequences(sequences, maxlen=30, padding='post')

labels = np.asarray(labels)

并且我的数据的形状为(为便于理解而简化):

Shape of data tensor: (1, 30)
Shape of label tensor: (22, 8)

但这意味着每个句子我都有30个单词和22个标签,长度为8。

我想知道是否可以为每个样本对句子中的每个单词进行分类吗?其中每个词都表示为100维向量。如果有人可以将我定向到具有更多此信息的网站或研究机构,我将不胜感激!

谢谢

0 个答案:

没有答案