Question

我有以下问题：

我正在使用anaconda python。在keras的数据集中，有一个数据集可以处理movie review sentiment classification或imdb。

from keras.datasets import imdb
(X_train, y_train), (X_test, y_test) = imdb.load_data()

根据文档，数据集现在可以使用了。基本上，单词已被整数替换，整数表示数据集中每个单词的有序频率。因此，每个修订版中的句子由一系列整数组成。这就是问题所在，我想知道如何转换＆＃34;这个keras输入模式的新数据集。

很抱歉这些错误，我是python的新手，我正在尝试研究ml。

我尝试通过word2vec做到这一点，但我不知道我是否走在正确的道路上：

word2vec.train_on_corpus(
    open('my-corpus.txt').read(),
    num_embedding_dimensions=500
)

示例带有文本，但是我有一个架构，每个文件夹的名称都是标签，每个文件夹里面都有txt文档。

我得到的另一种方式＆＃34;是通过使用sklearn

from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(analyzer = "word",   
                         tokenizer = None,    
                         preprocessor = None, 
                         stop_words = None,   
                         max_features = 5000) 

train_data_features = vectorizer.fit_transform(sentences)
train_data_features = train_data_features.toarray()

您还有其他我可以使用的替代方案吗？目前的做法是这样的吗？但我仍然不知道如何将文本向量绑定到标签

欢迎任何帮助，谢谢。

Python keras - 单词嵌入

0 个答案: