初学者统计:预测给定历史的一组数字的二元结果(Logistic回归)

时间:2015-02-03 18:09:54

标签: python logistic-regression statsmodels

我为这个问题的简单性提前道歉。我没有统计数据的背景,我对这一切的复杂性感到迷茫。

如果我有几千个数字都带有二元结果

number,outcome
14,0
27,1
88,1
04,0
42,1 

如何预测未来的数字?例如:

82
45
02

或者由于只有一个变量,这会不准确吗?我见过的所有例子都使用了多个变量。

我一直在挖掘statsmodels并完成了这个很棒的教程:http://blog.yhathq.com/posts/logistic-regression-and-python.html。通过我,我做了这个:

import pandas as pd
import statsmodels.api as sm

df = pd.read_csv("binary.csv")
df.columns = ["number", "outcome"]
data = df[['number', 'outcome']]
train_cols = data.columns[0]
logit = sm.Logit(data['outcome'], data[train_cols])
result = logit.fit()
print result.summary()

但这似乎是在分析当前数字的权重,你会如何预测新的?我是否正确地采取了这种方式?

1 个答案:

答案 0 :(得分:2)

拟合的结果应该有方法predict()。这就是您需要用来预测未来值的方法,例如:

result = sm.Logit(outcomes, values).fit()
result.predict([82,45,2])