带有Conv1D的Word2vec用于文本分类混淆

时间:2018-03-01 11:29:01

标签: python keras conv-neural-network word2vec multiclass-classification

我正在进行文本分类并计划使用word2vec字嵌入并将其传递给Conv1D图层进行文本分类。我有一个dataframe,其中包含文本和相应的标签(情绪)。我使用了gensim模块并使用word2vec算法生成了字嵌入模型。我使用的代码:

import pandas as pd
from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize
df=pd.read_csv('emotion_merged_dataset.csv')
texts=df['text']
labels=df['sentiment']
df_tokenized=df.apply(lambda row: word_tokenize(row['text']), axis=1)
model = Word2Vec(df_tokenized, min_count=1)

我打算使用CNN并使用这个词嵌入模型。但是我应该如何为我的cnn使用这个词嵌入模型呢?我的意见应该是什么?

我计划使用类似的东西(显然没有相同的超参数):

model = Sequential()
model.add(layers.Embedding(max_features, 128, input_length=max_len))
model.add(layers.Conv1D(32, 7, activation='relu'))
model.add(layers.MaxPooling1D(5))
model.add(layers.Conv1D(32, 7, activation='relu'))
model.add(layers.GlobalMaxPooling1D())
model.add(layers.Dense(1))

有人可以帮助我并指出我正确的方向吗?提前谢谢。

1 个答案:

答案 0 :(得分:2)

对于迟到的回复感到抱歉,我希望它对你有用。 根据您的应用程序,您可能需要下载特定的wordembedding文件,例如,此处您有Glove files

EMBEDDING_FILE='glove.6B.50d.txt'

embed_size = 50 # how big is each word vector
max_features = 20000 # how many unique words to use (i.e num rows in embedding vector)
maxlen = 100 # max number of words in a comment to use

word_index = tokenizer.word_index
nb_words = min(max_features, len(word_index))
embedding_matrix = np.random.normal(emb_mean, emb_std, (nb_words, embed_size))
for word, i in word_index.items():
    if i >= max_features: continue
    embedding_vector = embeddings_index.get(word)
    if embedding_vector is not None: embedding_matrix[i] = embedding_vector

#this is how you load the weights in the embedding layer
inp = Input(shape=(maxlen,))
x = Embedding(max_features, embed_size, weights=[embedding_matrix])(inp)

我从Jeremy Howard获取此代码,我认为这就是您所需要的,如果您想加载其他文件,则该过程非常相似,通常您只需要更改加载文件