我有一个问题,我的scikit几乎立即学习回归森林火车(在几秒钟内;我从这台机器的经验知道,我应该花大约半小时或更长时间的数据集我继续工作)然后预测每行输入数据的完全相同的输出。
我目前的理论是它与目标变量的数量级有关 - 大约10 ^ -11。我尝试将它们乘以100,000以查看发生了什么,它开始永远运行,直到我杀死脚本才做任何事情。
代码如下:
n_estimators = 200
rfr = RandomForestRegressor(n_estimators=n_estimators, verbose = 2, n_jobs = -1)
y_train = df_train[target].values*100000
rfr.fit(X_train, y_train)
rfr.predict(X_train)
你可能想知道为什么我把它重新用于训练数据 - 我只是想测试它是否真的在做任何事情,这不是。
感谢您的帮助!
编辑:
这是目标数据的describe()输出。训练数据的幅度大致相似:
count 4.000000e+04
mean -1.062353e-11
std 5.990830e-10
min -1.063333e-08
25% -2.305633e-10
50% -6.325584e-12
75% 2.110687e-10
max 1.564848e-08
我尝试了标准化数据并运行林;它打印没有输出,但内存使用量不断上升,所以它必须做一些事情。回归森林需要高计算机能力吗?我使用带有i7处理器和OK显卡的笔记本电脑;我可以分类。