在使用statsmodels时,我收到了这个奇怪的错误:ValueError: endog must be in the unit interval.
有人可以给我更多关于此错误的信息吗?谷歌没有帮助。
产生错误的代码:
"""
Multiple regression with dummy variables.
"""
import pandas as pd
import statsmodels.api as sm
import pylab as pl
import numpy as np
df = pd.read_csv('cost_data.csv')
df.columns = ['Cost', 'R(t)', 'Day of Week']
dummy_ranks = pd.get_dummies(df['Day of Week'], prefix='days')
cols_to_keep = ['Cost', 'R(t)']
data = df[cols_to_keep].join(dummy_ranks.ix[:,'days_2':])
data['intercept'] = 1.0
print(data)
train_cols = data.columns[1:]
logit = sm.Logit(data['Cost'], data[train_cols])
result = logit.fit()
print(result.summary())
追溯:
Traceback (most recent call last):
File "multiple_regression_dummy.py", line 20, in <module>
logit = sm.Logit(data['Cost'], data[train_cols])
File "/Library/Frameworks/Python.framework/Versions/3.4/lib/python3.4/site-packages/statsmodels/discrete/discrete_model.py", line 404, in __init__
raise ValueError("endog must be in the unit interval.")
ValueError: endog must be in the unit interval.
答案 0 :(得分:9)
当我的目标列的值大于1时,我收到此错误。 确保您的目标列介于0和1之间(如Logistic回归所需),然后重试。 例如,如果您的目标列的值为1-5,则将4和5设为正类,将1,2,3设为负类。希望这会有所帮助。
答案 1 :(得分:1)
您似乎遵循了我所做的相同的逻辑回归教程: http://blog.yhat.com/posts/logistic-regression-and-python.html
当我适合我的逻辑回归时,我最终获得了相同的值错误,并且我需要让它运行的技巧是确保丢弃我的数据的所有行(缺少值(N / A或np.nan))。
这可以通过pandas函数pandas.notnull()完成,如下所示:
data = data[pd.notnull(data['Cost'])],
data = data[pd.notnull(data['R(t)'])],
...
等等,直到所有变量都具有相同数量的值才能使用。
希望这有助于其他人!