Python SKLearn训练测试数据

时间:2019-06-04 12:16:18

标签: machine-learning scikit-learn jupyter-notebook training-data

这是我第一次从事机器学习。我有一个任务要对苹果股票收益率运行Sklearn的Logistic和贝叶斯回归,并将其与线性回归+张量流进行比较。我不确定我是否正确理解在运行Logistic回归之前必须训练我的数据集。我正在尝试使我的数据看起来像这样:

Closing_Price   Daily_Returns   Daily_Returns_1 Daily_Returns_2 Daily_Returns_3 Daily_Returns_4 Daily_Returns_5
Date                            
1980-12-22  0.53    0.058269    0.040822    0.042560    0.021979    -0.085158   -0.040005
1980-12-23  0.55    0.037041    0.058269    0.040822    0.042560    0.021979    -0.085158
1980-12-24  0.58    0.053110    0.037041    0.058269    0.040822    0.042560    0.021979
1980-12-26  0.63    0.082692    0.053110    0.037041    0.058269    0.040822    0.042560
1980-12-29  0.64    0.015748    0.082692    0.053110    0.037041    0.058269    0.040822

我跑步时

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size = 0.2)

我收到一个错误NameError: name 'X' is not defined

非常感谢您的帮助。预先感谢您的宝贵时间。

1 个答案:

答案 0 :(得分:0)

由于某些原因错过了告诉您的内容,因此观看了许多youtube视频。必须像这样定义X和y:

X = apple['Closing_Price'].values.reshape(-1,1)

y = apple['Daily_Returns'].values.reshape(-1,1)