Logistic梯度下降在Python中没有收敛fmin_tnc

时间:2017-02-17 00:14:56

标签: python optimization machine-learning logistic-regression

我一直在关注python中实现逻辑梯度下降的教程。
这是链接: http://www.johnwittenauer.net/machine-learning-exercises-in-python-part-3/

他的ipython笔记本github在这里进行了特别的练习:
https://github.com/jdwittenauer/ipython-notebooks/blob/master/notebooks/ml/ML-Exercise2.ipynb

这是我的问题代码:

import pandas as pd
import matplotlib.pylab as plt
import numpy as np
import scipy.optimize as opt  


def sigmoid(Z):
    '''Compute the sigmoid function '''
    return 1.0 / (1.0 + np.exp( -1.0 * Z))

###########################################


def compute_cost(theta,X,y, learningRate):
   '''compute cost given '''

    theta = np.matrix(theta)
    X = np.matrix(X)
    y = np.matrix(y)
    m = y.size
    theta0 = np.zeros((1,X.shape[1]))
    theta0[0,1:] = theta[0,1:]    

    reg = np.dot((learningRate/2*m),(theta0.T.dot(theta0))) 

    Z = X.dot(theta.T)

    hypothesis = sigmoid(Z)  
    exp1 = (-y.T.dot(np.log(hypothesis)))
    exp2 = ((1.0 - y).T.dot(np.log(1.0 - hypothesis)))    
    J = (exp1  - exp2).dot(1/m) 

    return J.sum() + reg.sum() 



def grad(theta,X,y,learningRate):    

    theta = theta.T          
    X = np.matrix(X)
    y = np.matrix(y)
    m = y.shape[0]
    theta0 = np.zeros(X.shape[1])      
    theta0[1:] = theta[1:]    
    theta = np.matrix(theta)    
    theta0 = np.matrix(theta0)

    reg = np.dot(learningRate / m, theta)

    Z = X.dot(theta.T)    
    hypothesis = sigmoid(Z)      
    error = hypothesis - y        
    grad =  np.dot((X.T.dot(error).flatten()),1/m)  + reg
    grad= grad.flatten()  
    grad          

##
def predict(theta, X):    
    probability = sigmoid(X * theta.T)
    return [1 if (x >= 0.5) else 0 for x in probability]  


以下是代码的调用方式:
    data2 = pd.read_csv('ex2data2.txt',header = None,names = ['Test 1','Test 2','Accepted'])

y = data2[data2.columns[-1]].as_matrix()
m = len(y)
y = y.reshape(m, 1)
X = data2[data2.columns[:-1]]
X = X.as_matrix()
_lambda = 1

from sklearn.preprocessing import PolynomialFeatures

#Get all high order parameters
feature_mapper = PolynomialFeatures(degree=6)
X = feature_mapper.fit_transform(X)

# convert to numpy arrays and initalize the parameter array theta

theta = np.zeros(X.shape[1])

learningRate = 1

compute_cost(theta, X, y, learningRate)        

result = opt.fmin_tnc(func=compute_cost,x0=theta,fprime=grad,args=    (X,y,learningRate))

对于一个变量,一切工作正常,但有更多的功能(练习2)它不能很好地工作。直到所使用的优化梯度下降函数(fmin_tnc)的所有内容都是完全相同的。
不知何故,即使他的代码也没有收敛到期望值。他的博客示例显示了应该是fmin_tnc的结果 his call and expected result for fmin_tnc

但如果您按照其代码的每一步操作,您将获得以下结果:
Result giving by his code


好吧,你可以看到它有点不同。但我在他的代码中发现了一个不同的东西。他删掉了2列“测试1”和“测试2”,只保留了高阶参数。这感觉很奇怪,因为在Andrew Ng的解决方案中,他不会删除表中的任何列,但他使用 28个功能。这个仅使用 11个功能。我找到了其他代码,我希望我的cost_function和gradient函数能够正常工作。我相信他们会陷入局部最低限度,他们并没有融合。
我最后一次尝试使用了所有28个功能,就像Andrew的dataFrame一样。可悲的是,我得到了不同的结果,如下所示:
FInal Result
如您所见,我的准确度更高,但我的成本仍然高于预期,即: 0.52900
我的意图不是要削弱博客的代码质量。我仍然按照他在其他教程上的步骤,似乎是一个很好的来源 下面是我的代码的链接,我正在使用fmin_tnc。我刚刚创建了一个更加向量化的gradient_function。该文件的名称是Logistic Regression Regularized.py

Github:https://github.com/vinipachecov/Machine-Learning/tree/master/Logistic%20Regression

1 个答案:

答案 0 :(得分:0)

问题是我使用的是python 3.6,而autor使用的是python 2.7.X.将版本更改为python 2.7.13解决了这个问题。