根据字典值生成一种热编码

时间:2018-09-14 00:50:17

标签: python arrays numpy one-hot-encoding

我试图根据字典字符创建一个热数组:首先,我创建了一个具有行X列(3x7)的numpy零,然后搜索每个字符的ID并为每个字符分配“ 1” numpy数组的行。

我的目标是为每个字符分配一个热阵列。 “ 1”表示“存在”,“ 0”表示“不存在”。这里我们有3个字符,所以我们应该有3行,而7列用作字典中的字符。

但是,我收到一条错误消息,指出“ TypeError:只能将整数标量数组转换为标量索引”。有人可以帮我吗?谢谢

为了不让每个人都误解我的字典:

这是我创建dic的方法:

sent = ["a", "b", "c", "d", "e", "f", "g"]
aaa = len(sent)
aa = {x:i for i,x in enumerate(sent)}

我的代码:

import numpy as np
sentences = ["b", "c", "e"]
a = {}
for xx in sentences:
   a[xx] = aa[xx]
a = {"b":1, "c":2, "e":4}
aa =len(a)

for x,y in a.items():
    aa = np.zeros((aa,aaa))
    aa[y] = 1

print(aa)

当前错误:

TypeError: only integer scalar arrays can be converted to a scalar index

我的预期输出:

[[0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0.]]

------->由于它是字典,因此索引排列应该不同,并且数组中的“ 1”是一个虚拟对象,以便我可以显示期望的输出。

5 个答案:

答案 0 :(得分:2)

设置索引

(内嵌评论)

# Sort and extract the indices.
idx = sorted(a.values())
# Initialise a matrix of zeros.
aa = np.zeros((len(idx), max(idx) + 1))
# Assign 1 to appropriate indices.
aa[np.arange(len(aa)), idx] = 1

print (aa)
array([[0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1.]])

numpy.eye

idx = sorted(a.values())
eye = np.eye(max(idx) + 1)    
aa = eye[idx]

print (aa)
array([[0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1.]])

答案 1 :(得分:2)

一种热编码将样本视为序列,其中序列的每个元素都是词汇表中的索引,指示该元素(如单词还是字母)是否在样本中。例如,如果您的词汇是小写字母,那么工作猫的一键编码可能看起来像:

 [1, 0., 1, 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,0., 0., 1, 0., 0., 0., 0., 0., 0.]

表示此单词包含字母cat

要进行单点编码,您需要做两件事,即对词汇表进行所有可能的值查找(使用单词时,这就是为什么矩阵会变得如此大的原因,因为词汇量很大!)。但是,如果对小写字母进行编码,则只需26。

然后,您通常将样本表示为词汇表中的索引。所以这组单词可能看起来像这样:

#bag, cab, fad
sentences = np.array([[1, 0, 6], [2, 0, 1], [5, 0, 3]])

一键编码时,您将获得3 x 26的矩阵:

vocab = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z']

#bag, cab, fad
sentences = np.array([[1, 0, 6], [2, 0, 1], [5, 0, 3]])

def onHot(sequences, dimension=len(vocab)):
    results = np.zeros((len(sequences), dimension))
    for i, sequence in enumerate(sequences):
      results[i, sequence] = 1
    return results

onHot(sentences)

这将产生一个带有26个字母的词汇表的一次性编码的样本,准备将其馈送到神经网络:

array([[1., 1., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
   [1., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
   [1., 0., 0., 1., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])

答案 2 :(得分:1)

我的解决方案以及未来的读者:

我为“已发送”列表构建字典:

sent = ["a", "b", "c", "d", "e", "f", "g"]
aaa = len(sent)
aa = {x:i for i,x in enumerate(sent)}

然后我根据字典找到我自己的句子的索引,并为这些句子分配数值。

import numpy as np
sentences = ["b", "c", "e"]
a = {}
for xx in sentences:
   a[xx] = aa[xx]
a = {"b":1, "c":2, "e":4}
aa =len(a)

我从新分配的“ a”中提取索引:

index = []
for x,y in a.items():
    index.append(y)

然后我为这些从a提取的索引创建另一个numpy数组。

index = np.asarray(index)

现在,我创建numpy零来存储每个字符的存在:

new = np.zeros((aa,aaa))
new[np.arange(aa), index] = 1

打印(新)

输出:

[[0. 1. 0. 0. 0. 0. 0.]
[0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0.]]

答案 3 :(得分:1)

这是使用sklearn.preprocessing

的另一个

行很长,没有太大的区别。我不知道为什么,但产生了类似的结果。

import numpy as np
from sklearn.preprocessing import OneHotEncoder
sent = ["a", "b", "c", "d", "e", "f", "g"]
aaa = len(sent)
aa = {x:i for i,x in enumerate(sent)}


sentences = ["b", "c", "e"]
a = {}
for xx in sentences:
   a[xx] = aa[xx]
a = {"a":0, "b":1, "c":2, "d":3, "e":4, "f":5, "g":6}
aa =len(a)

index = []
for x,y in a.items():
    index.append([y])

index = np.asarray(index)

enc = OneHotEncoder()
enc.fit(index)

print(enc.transform([[1], [2], [4]]).toarray())

输出

[[0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0.]]

答案 4 :(得分:0)

我喜欢将LabelEncodersklearn中的OneHotEncoder一起使用。

import sklearn.preprocessing
import numpy as np

texty_data = np.array(["a", "c", "b"])
le = sklearn.preprocessing.LabelEncoder().fit(texty_data)
integery_data = le.transform(texty_data)
ohe = sklearn.preprocessing.OneHotEncoder().fit(integery_data.reshape((-1,1)))
onehot_data = ohe.transform(integery_data.reshape((-1,1)))

将其存储为稀疏,因此非常方便。您还可以使用LabelBinarizer简化此过程:

import sklearn.preprocessing
import numpy as np

texty_data = np.array(["a", "c", "b"])
lb = sklearn.preprocessing.LabelBinarizer().fit(texty_data)
onehot_data = lb.transform(texty_data)
print(onehot_data, lb.inverse_transform(onehot_data))