如何将数据集(csv)分为训练和测试数据

时间:2019-02-06 19:15:59

标签: python-3.x machine-learning

如果其中没有因变量,如何使用python编程语言将数据集(csv)分为训练和测试数据

我当前正在从事的项目是基于机器学习的,并且数据集不包含任何相关数据。以下代码仅在数据集包含相关数据时有效-

来自sklearn.model_selection的

导入train_test_split xTrain,xTest,yTrain,yTest = train_test_split(x,y,test_size = 0.2,random_state = 0)

我希望拆分不会发生任何“ y”变量, 有可能吗?

1 个答案:

答案 0 :(得分:0)

有两种“随机”分布。 1)100%随机 2)数据“随机”但“平等”分布(即相同的均值/规范)

为回答您的问题,我首先建议您使用一个软件包来管理您的数据框(即熊猫)

请参阅链接以获取信息: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html

因此,如果您想随机抽取50%的DataFrame样本:

 df.sample(frac=0.5, replace=True, random_state=1)