我为这个问题的简单性提前道歉。我没有统计数据的背景,我对这一切的复杂性感到迷茫。
如果我有几千个数字都带有二元结果
number,outcome
14,0
27,1
88,1
04,0
42,1
如何预测未来的数字?例如:
82
45
02
或者由于只有一个变量,这会不准确吗?我见过的所有例子都使用了多个变量。
我一直在挖掘statsmodels并完成了这个很棒的教程:http://blog.yhathq.com/posts/logistic-regression-and-python.html。通过我,我做了这个:
import pandas as pd
import statsmodels.api as sm
df = pd.read_csv("binary.csv")
df.columns = ["number", "outcome"]
data = df[['number', 'outcome']]
train_cols = data.columns[0]
logit = sm.Logit(data['outcome'], data[train_cols])
result = logit.fit()
print result.summary()
但这似乎是在分析当前数字的权重,你会如何预测新的?我是否正确地采取了这种方式?
答案 0 :(得分:2)
拟合的结果应该有方法predict()
。这就是您需要用来预测未来值的方法,例如:
result = sm.Logit(outcomes, values).fit()
result.predict([82,45,2])