我尝试使用非数字数据训练KNeighborClassifier
,但我提供了一个自定义指标,可以计算样本之间的相似性得分。
from sklearn.neighbors import KNeighborsClassifier
#Compute the "ASCII" distance:
def my_metric(a,b):
return ord(a)-ord(b)
#Samples and labels
X = [["a"],["b"], ["c"],["m"], ["z"]]
#S=Start of the alphabet, M=Middle, E=end
y = ["S", "S", "S", "M", "E"]
model = KNeighborsClassifier(metric=my_metric)
model.fit(X,y)
X_test = [["e"],["f"],["w"]]
y_test = [["S"],["M"],["E"]]
model.score(X_test, y_test)
我收到以下错误:
Traceback (most recent call last):
File "/home/marcofavorito/virtualenvs/nlp/lib/python3.5/site-packages/IPython/core/interactiveshell.py", line 2862, in run_code
exec(code_obj, self.user_global_ns, self.user_ns)
File "<ipython-input-20-e339c96eea22>", line 1, in <module>
model.score(X_test, y_test)
File "/home/marcofavorito/virtualenvs/nlp/lib/python3.5/site-packages/sklearn/base.py", line 350, in score
return accuracy_score(y, self.predict(X), sample_weight=sample_weight)
File "/home/marcofavorito/virtualenvs/nlp/lib/python3.5/site-packages/sklearn/neighbors/classification.py", line 145, in predict
neigh_dist, neigh_ind = self.kneighbors(X)
File "/home/marcofavorito/virtualenvs/nlp/lib/python3.5/site-packages/sklearn/neighbors/base.py", line 361, in kneighbors
**self.effective_metric_params_)
File "/home/marcofavorito/virtualenvs/nlp/lib/python3.5/site-packages/sklearn/metrics/pairwise.py", line 1247, in pairwise_distances
return _parallel_pairwise(X, Y, func, n_jobs, **kwds)
File "/home/marcofavorito/virtualenvs/nlp/lib/python3.5/site-packages/sklearn/metrics/pairwise.py", line 1090, in _parallel_pairwise
return func(X, Y, **kwds)
File "/home/marcofavorito/virtualenvs/nlp/lib/python3.5/site-packages/sklearn/metrics/pairwise.py", line 1104, in _pairwise_callable
X, Y = check_pairwise_arrays(X, Y)
File "/home/marcofavorito/virtualenvs/nlp/lib/python3.5/site-packages/sklearn/metrics/pairwise.py", line 110, in check_pairwise_arrays
warn_on_dtype=warn_on_dtype, estimator=estimator)
File "/home/marcofavorito/virtualenvs/nlp/lib/python3.5/site-packages/sklearn/utils/validation.py", line 402, in check_array
array = np.array(array, dtype=dtype, order=order, copy=copy)
ValueError: could not convert string to float: 'e'
我想我可以非常轻松地实现算法,但没有sklearn
分类器的所有功能。我错过了一些选择吗?或者,如果我之前没有将样本翻译成花车,我就无法训练模型?
N.B。我知道通过输入数字而不是字符可以轻松解决问题。但我需要解决另一个处理非数字数据的问题,以及我找不到简单映射到浮点数的问题,如前所述。
答案 0 :(得分:2)
除了穆罕默德已经提到过的东西:你的方法在数学上有缺陷,而sklearn可能无法保证会发生什么。
KNN分类器只是KD-trees和Ball-trees等核心数据结构的一个很好的包装器。 Here you can see what kind of assumptions those need
这里func是一个函数,它接受两个一维numpy数组,并返回一个距离。请注意,为了在BallTree中使用,距离必须是真正的度量:即它必须满足以下属性
非负性:d(x,y)> = 0
标识:当且仅当x == y
时,d(x,y)= 0对称性:d(x,y)= d(y,x)
三角不等式:d(x,y)+ d(y,z)> = d(x,z)
公平。 That's just what a metric is
就是这样,您的指标不是真正的指标! (即使是最明显的规则:也没有给出非消极性。
现在在上面的文本中,只给出了关于Ball-tree(而不是KD-tree)的警告,并且KNN自动选择了底层树结构。所以这里可能有一个不好的情况,你应该避免。
我不确定,如果KD树也需要这些假设!我本来期望一个是,只是指向kd-trees docs仍然使用 metric 和可用kd_tree.valid_metrics
这个词(虽然这个列表只是公共指标的一个子集,来自sklearn)。
答案 1 :(得分:1)
您的代码中存在一些错误。首先,您必须以某种方式将分类数据转换为数字数据。 Sklearn中的KNN分类器尚不支持分类数据。其次,您需要在sklearn中使用make_Scorer()函数才能使用自定义指标。 KNN中的默认score
函数返回的平均精度不是您指定的指标。您可以阅读更多相关信息here。您需要更改数据集才能使用KNN分类器的这个sklearn实现。