我想知道是否可以使用词嵌入对句子中的每个词进行分类。根据我的研究结果,生成了一个tokenizer
对象,该对象用于将句子中的单词映射为整数。这将产生一个2D向量,其中将句子中的每个单词映射到其中。但是,该二维向量表示单词的“句子”,并且每个句子具有单个标签分类。
到目前为止,我的代码是:
from keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer(num_words=8000)
tokenizer.fit_on_texts(sentences_train)
sequences = tokenizer.texts_to_sequences(sentences_train)
word_index = tokenizer.word_index
print('Found %s unique tokens.' % len(word_index))
data = pad_sequences(sequences, maxlen=30, padding='post')
labels = np.asarray(labels)
并且我的数据的形状为(为便于理解而简化):
Shape of data tensor: (1, 30)
Shape of label tensor: (22, 8)
但这意味着每个句子我都有30个单词和22个标签,长度为8。
我想知道是否可以为每个样本对句子中的每个单词进行分类吗?其中每个词都表示为100维向量。如果有人可以将我定向到具有更多此信息的网站或研究机构,我将不胜感激!
谢谢