我有以下问题:
我正在使用anaconda
python
。
在keras的数据集中,有一个数据集可以处理movie review sentiment classification或imdb
。
from keras.datasets import imdb
(X_train, y_train), (X_test, y_test) = imdb.load_data()
根据文档,数据集现在可以使用了。 基本上,单词已被整数替换,整数表示数据集中每个单词的有序频率。因此,每个修订版中的句子由一系列整数组成。 这就是问题所在,我想知道如何转换"这个keras输入模式的新数据集。
很抱歉这些错误,我是python的新手,我正在尝试研究ml。
我尝试通过word2vec
做到这一点,但我不知道我是否走在正确的道路上:
word2vec.train_on_corpus(
open('my-corpus.txt').read(),
num_embedding_dimensions=500
)
示例带有文本,但是我有一个架构,每个文件夹的名称都是标签,每个文件夹里面都有txt文档。
我得到的另一种方式"是通过使用sklearn
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(analyzer = "word",
tokenizer = None,
preprocessor = None,
stop_words = None,
max_features = 5000)
train_data_features = vectorizer.fit_transform(sentences)
train_data_features = train_data_features.toarray()
您还有其他我可以使用的替代方案吗?目前的做法是这样的吗? 但我仍然不知道如何将文本向量绑定到标签
欢迎任何帮助,谢谢。