如果其中没有因变量,如何使用python编程语言将数据集(csv)分为训练和测试数据
我当前正在从事的项目是基于机器学习的,并且数据集不包含任何相关数据。以下代码仅在数据集包含相关数据时有效-
来自sklearn.model_selection的导入train_test_split xTrain,xTest,yTrain,yTest = train_test_split(x,y,test_size = 0.2,random_state = 0)
我希望拆分不会发生任何“ y”变量, 有可能吗?
答案 0 :(得分:0)
有两种“随机”分布。 1)100%随机 2)数据“随机”但“平等”分布(即相同的均值/规范)
为回答您的问题,我首先建议您使用一个软件包来管理您的数据框(即熊猫)
请参阅链接以获取信息: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html
因此,如果您想随机抽取50%的DataFrame样本:
df.sample(frac=0.5, replace=True, random_state=1)