Lambda函数-TypeError:无法散列的类型:'numpy.ndarray'

时间:2019-09-04 17:51:01

标签: python numpy lambda encoding categorical-data

我有一个numpy二维数组,每一列都有分类数据。

我尝试在每一列分别编码数据,同时可能在每种情况下处理看不见的数据。

我有此代码:

from sklearn.preprocessing import LabelEncoder

for column in range(X_train.shape[1]):

    label_encoder = LabelEncoder()

    X_train[:, column] = label_encoder.fit_transform(X_train[:, column])

    mappings = dict(zip(label_encoder.classes_, label_encoder.transform(label_encoder.classes_)))

    map_function = lambda x: mappings.get(x, -1)

    X_test[:, column] = map_function(X_test[:, column])

我得到这个错误:

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-***********> in <module>
     39         mappings = dict(zip(label_encoder.classes_, label_encoder.transform(label_encoder.classes_)))
     40         map_function = lambda x: mappings.get(x, -1)
---> 41         X_test[:, column] = map_function(X_test[:, column])
     42 
     43 

<ipython-input-***********> in <lambda>(x)
     38         X_train[:, column] = label_encoder.fit_transform(X_train[:, column])
     39         mappings = dict(zip(label_encoder.classes_, label_encoder.transform(label_encoder.classes_)))
---> 40         map_function = lambda x: mappings.get(x, -1)
     41         X_test[:, column] = map_function(X_test[:, column])
     42 

TypeError: unhashable type: 'numpy.ndarray'

我该如何解决?

总的来说,您会建议一种更好的方式来做我想做的事吗?

PS

我试图这样做是为了查看发生了什么

for column in range(X_train.shape[1]):
    label_encoder = LabelEncoder()
    X_train[:, column] = label_encoder.fit_transform(X_train[:, column])
    mappings = dict(zip(label_encoder.classes_, label_encoder.transform(label_encoder.classes_)))

    try:
        map_function = lambda x: mappings.get(x, -1)
        X_test[:, column] = map_function(X_test[:, column])
    except:
        print(X_test[:, column])
        for i in range(X_test[:, column].shape[0]):
            if isinstance(X_test[i, column],np.ndarray):
                print(X_test[i, column])
        print()

但实际上print(X_test[i, column])没有打印任何内容,因此我不确定X_test[:, column]中是否有任何numpy数组。

我实际上还检查了if not isinstance(X_test[i, column],str)并再次没有打印任何内容,因此X_train[:, column]中每个column的所有内容都必须是字符串。

P.S.2

当我这样做时:

 for i in range(X_test[:, column].shape[0]):
     X_test[i, column] = mappings.get(X_test[i, column], -1)

它实际上没有错误,因此这意味着由于某种原因,我定义了lambda函数时,我将整个numpy数组发送给了它,而不是单独发送了它的元素。

1 个答案:

答案 0 :(得分:1)

这里发生的是,发送到map_function的是实际矢量,由于它不可哈希,因此不能用作字典中的键,因此会出错。

切换行

map_function = lambda x: mappings.get(x, -1)

map_function = np.vectorize(lambda x: mappings.get(x, -1))

这将导致每个元素都被用作映射中的键,并且如果所有元素确实都是可哈希的,它将起作用。