具有非数字数据的KNeighborClassifier失败

时间:2017-09-22 20:27:20

标签: python machine-learning scikit-learn knn nearest-neighbor

我尝试使用非数字数据训练KNeighborClassifier,但我提供了一个自定义指标,可以计算样本之间的相似性得分。

from sklearn.neighbors import KNeighborsClassifier

#Compute the "ASCII" distance:   
def my_metric(a,b):
    return ord(a)-ord(b)

#Samples and labels
X = [["a"],["b"], ["c"],["m"], ["z"]]

#S=Start of the alphabet, M=Middle, E=end
y = ["S", "S", "S", "M", "E"]

model = KNeighborsClassifier(metric=my_metric)
model.fit(X,y)

X_test = [["e"],["f"],["w"]]
y_test = [["S"],["M"],["E"]]
model.score(X_test, y_test)

我收到以下错误:

Traceback (most recent call last):
File "/home/marcofavorito/virtualenvs/nlp/lib/python3.5/site-packages/IPython/core/interactiveshell.py", line 2862, in run_code
  exec(code_obj, self.user_global_ns, self.user_ns)
File "<ipython-input-20-e339c96eea22>", line 1, in <module>
  model.score(X_test, y_test)
File "/home/marcofavorito/virtualenvs/nlp/lib/python3.5/site-packages/sklearn/base.py", line 350, in score
  return accuracy_score(y, self.predict(X), sample_weight=sample_weight)
File "/home/marcofavorito/virtualenvs/nlp/lib/python3.5/site-packages/sklearn/neighbors/classification.py", line 145, in predict
  neigh_dist, neigh_ind = self.kneighbors(X)
File "/home/marcofavorito/virtualenvs/nlp/lib/python3.5/site-packages/sklearn/neighbors/base.py", line 361, in kneighbors
  **self.effective_metric_params_)
File "/home/marcofavorito/virtualenvs/nlp/lib/python3.5/site-packages/sklearn/metrics/pairwise.py", line 1247, in pairwise_distances
  return _parallel_pairwise(X, Y, func, n_jobs, **kwds)
File "/home/marcofavorito/virtualenvs/nlp/lib/python3.5/site-packages/sklearn/metrics/pairwise.py", line 1090, in _parallel_pairwise
  return func(X, Y, **kwds)
File "/home/marcofavorito/virtualenvs/nlp/lib/python3.5/site-packages/sklearn/metrics/pairwise.py", line 1104, in _pairwise_callable
  X, Y = check_pairwise_arrays(X, Y)
File "/home/marcofavorito/virtualenvs/nlp/lib/python3.5/site-packages/sklearn/metrics/pairwise.py", line 110, in check_pairwise_arrays
  warn_on_dtype=warn_on_dtype, estimator=estimator)
File "/home/marcofavorito/virtualenvs/nlp/lib/python3.5/site-packages/sklearn/utils/validation.py", line 402, in check_array
  array = np.array(array, dtype=dtype, order=order, copy=copy)
ValueError: could not convert string to float: 'e'

我想我可以非常轻松地实现算法,但没有sklearn分类器的所有功能。我错过了一些选择吗?或者,如果我之前没有将样本翻译成花车,我就无法训练模型?

N.B。我知道通过输入数字而不是字符可以轻松解决问题。但我需要解决另一个处理非数字数据的问题,以及我找不到简单映射到浮点数的问题,如前所述。

2 个答案:

答案 0 :(得分:2)

除了穆罕默德已经提到过的东西:你的方法在数学上有缺陷,而sklearn可能无法保证会发生什么。

KNN分类器只是KD-treesBall-trees等核心数据结构的一个很好的包装器。 Here you can see what kind of assumptions those need

  

这里func是一个函数,它接受两个一维numpy数组,并返回一个距离。请注意,为了在BallTree中使用,距离必须是真正的度量:即它必须满足以下属性

     

非负性:d(x,y)> = 0

     

标识:当且仅当x == y

时,d(x,y)= 0      

对称性:d(x,y)= d(y,x)

     

三角不等式:d(x,y)+ d(y,z)> = d(x,z)

公平。 That's just what a metric is

就是这样,您的指标不是真正的指标! (即使是最明显的规则:也没有给出非消极性。

现在在上面的文本中,只给出了关于Ball-tree(而不是KD-tree)的警告,并且KNN自动选择了底层树结构。所以这里可能有一个不好的情况,你应该避免。

我不确定,如果KD树也需要这些假设!我本来期望一个是,只是指向kd-trees docs仍然使用 metric 和可用kd_tree.valid_metrics这个词(虽然这个列表只是公共指标的一个子集,来自sklearn)。

答案 1 :(得分:1)

您的代码中存在一些错误。首先,您必须以某种方式将分类数据转换为数字数据。 Sklearn中的KNN分类器尚不支持分类数据。其次,您需要在sklearn中使用make_Scorer()函数才能使用自定义指标。 KNN中的默认score函数返回的平均精度不是您指定的指标。您可以阅读更多相关信息here。您需要更改数据集才能使用KNN分类器的这个sklearn实现。