Sci kit学习回归随机森林回归实现

时间:2015-12-23 03:58:27

标签: python pandas machine-learning scikit-learn random-forest

我有一个问题,我的scikit几乎立即学习回归森林火车(在几秒钟内;我从这台机器的经验知道,我应该花大约半小时或更长时间的数据集我继续工作)然后预测每行输入数据的完全相同的输出。

我目前的理论是它与目标变量的数量级有关 - 大约10 ^ -11。我尝试将它们乘以100,000以查看发生了什么,它开始永远运行,直到我杀死脚本才做任何事情。

代码如下:

n_estimators = 200
rfr = RandomForestRegressor(n_estimators=n_estimators, verbose = 2, n_jobs = -1)
y_train = df_train[target].values*100000
rfr.fit(X_train, y_train)

rfr.predict(X_train)

你可能想知道为什么我把它重新用于训练数据 - 我只是想测试它是否真的在做任何事情,这不是。

感谢您的帮助!

编辑:

这是目标数据的describe()输出。训练数据的幅度大致相似:

count    4.000000e+04
mean    -1.062353e-11
std      5.990830e-10
min     -1.063333e-08
25%     -2.305633e-10
50%     -6.325584e-12
75%      2.110687e-10
max      1.564848e-08

我尝试了标准化数据并运行林;它打印没有输出,但内存使用量不断上升,所以它必须做一些事情。回归森林需要高计算机能力吗?我使用带有i7处理器和OK显卡的笔记本电脑;我可以分类。

0 个答案:

没有答案