KNN没有正确分类

时间:2017-04-27 14:58:03

标签: python-3.x numpy genetic-algorithm knn

我在python中构建自己的1-NN分类器,因为我需要在某些操作中测试它的最大速度,因为我想在遗传算法中使用它,而每一毫秒都对速度很重要。

我试图用numpy在我的KNN课程中实施一次离开测试,但是我通过这个测试获得了大约50%的成功。我尝试使用相同的离开学习scikit knn并返回大约97%的成功。

这是我的KNN课程:

class KNN(object):
"""Documentation for KNK-clasifier"""
def __init__(self):
    super(KNN, self).__init__()
    # self.args = args

def fit(self, entrenamiento, clases):
    self.entrenamiento = np.asarray(entrenamiento)
    self.n_examples = len(self.entrenamiento)
    self.n_features = len(self.entrenamiento[1])
    self.clases = np.asarray(clases)
    self.createDistenceMatrix()

def createDistenceMatrix(self):
    self.distances = np.zeros([len(self.entrenamiento),
                               len(self.entrenamiento),
                               len(self.entrenamiento[1])])
    for i in range(self.n_examples):
        for j in range(self.n_examples):
            if i is not j:
                self.distances[i][j] = self.distance(self.entrenamiento[i],
                                                     self.entrenamiento[j])
            else:
                self.distances[i][j] = np.full(len(self.entrenamiento[1]),
                                               10000.0)

def distance(self, x, y):
    return (x-y)*(x-y)

def predict(self, test, pesos=None):
    dist = 100000
    class_index = 0
    for i in range(self.n_examples):
        aux = self.distance(self.entrenamiento[i], test)
        if pesos is not None:
            aux = pesos*aux

        if aux < dist:
            dist = aux
            class_index = i

    return self.clases[class_index]

def leave_one_out(self, pesos=None):
    # DONE: solo tengo que buscar el minimo de cada columna
    dist = np.zeros(self.n_examples)
    aciertos = 0
    for i in range(self.n_examples):
        for j in range(self.n_examples):
            if pesos is not None:
                dist[i] = np.linalg.norm(
                    np.multiply(self.distances[i][j], pesos))
            else:
                dist[i] = np.linalg.norm(self.distances[i][j])

        if self.clases[i] == self.clases[np.argmin(dist)]:
            aciertos = aciertos + 1

    return 100*(aciertos/self.n_examples)

其中create createDistanceMatrix预先计算所有要素的所有可能x,y距离并将其保存到矢量。该矢量将乘以一个weitght矢量。此向量表示我试图解决的特征权重学习问题。我通过了两天试图找到错误的地方,但我很难找到,但是我的分类器并没有给我一个好的分类,只留下一个。

对于sklearn knn来说,这是我正在测试的一个问题:

    aciertos = 0
    knn = neighbors.KNeighborsClassifier(n_neighbors=1)
    start = time.clock()
    for i in range(len(train)):
        knn.fit(train[1:], cls[1:])
        if knn.predict(train[0])[0] == cls[0]:
            aciertos = aciertos + 1
        train[0], train[-1] = train[-1], train[0]
        cls[0], cls[-1] = cls[-1], cls[0]
    end = time.clock()
    print(str(end - start) + " segundos")
    print(str(100*(aciertos/len(train))))

这个与我自己的clasifier相同的代码会返回相似的成功百分比。

1 个答案:

答案 0 :(得分:0)

我不知道你是否解决了问题,但你的距离看起来不对?

以下是斯坦福大学cs231n的算法:

enter image description here