来自文本语料库的单词的热编码

时间:2017-01-06 10:17:30

标签: scikit-learn one-hot-encoding

如何创建一个单词的热编码,每个单词由词汇大小的稀疏向量表示,并且该特定单词的索引等于1,使用tensorflow?

类似

oneHotEncoding(words = [' a',' b',' c'' d']) - > [[1,0,0,0],[0,1,0,0],[0,0,1,0],[0,0,0,1]]?

1 个答案:

答案 0 :(得分:0)

Scikits一个热编码器采用一个int-array(http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html)。根据您的示例,您可以使用字典将单词映射到整数并从那里开始:

array([[ 0.,  0.,  1.,  0.]])

产生

continue