将原始集拆分为训练集和测试集

时间:2016-05-25 19:10:18

标签: java machine-learning weka training-data

我有一个原始集合的文件,看起来像这样

1   1   1   40.57784227583149   27.618035602470936  40.576842275831495  27.617035602470935
1   3   5   40.57784227583149   27.618035602470936  40.576842275831495  27.617035602470935
1   2   4   40.57784227583149   27.618035602470936  40.576842275831495  27.617035602470935
1   10  3   40.57784227583149   27.618035602470936  40.576842275831495  27.617035602470935
1   5   5   40.57784227583149   27.618035602470936  40.576842275831495  27.617035602470935
1   7   4   40.57784227583149   27.618035602470936  40.576842275831495  27.617035602470935
2   7   1   40.576842275831495  27.617035602470935  40.576842275831495  27.617035602470935
2   8   5   40.576842275831495  27.617035602470935  40.5758422758315    27.616035602470934
2   1   5   40.576842275831495  27.617035602470935  40.576842275831495  27.617035602470935
2   5   1   40.576842275831495  27.617035602470935  40.576842275831495  27.617035602470935
2   4   4   40.576842275831495  27.617035602470935  40.5758422758315    27.616035602470934
2   3   2   40.576842275831495  27.617035602470935  40.576842275831495  27.617035602470935
3   5   4   40.576842275831495  27.617035602470935  40.576842275831495  27.617035602470935
3   7   5   40.576842275831495  27.617035602470935  40.576842275831495  27.617035602470935
3   4   1   40.576842275831495  27.617035602470935  40.5758422758315    27.616035602470934
3   8   3   40.576842275831495  27.617035602470935  40.5758422758315    27.616035602470934
3   2   1   40.576842275831495  27.617035602470935  40.576842275831495  27.617035602470935
4   5   4   40.576842275831495  27.617035602470935  40.576842275831495  27.617035602470935
4   9   1   40.576842275831495  27.617035602470935  40.5758422758315    27.616035602470934
4   8   4   40.576842275831495  27.617035602470935  40.5758422758315    27.616035602470934
4   4   4   40.576842275831495  27.617035602470935  40.5758422758315    27.616035602470934
4   10  5   40.576842275831495  27.617035602470935  40.576842275831495  27.617035602470935
4   7   3   40.576842275831495  27.617035602470935  40.576842275831495  27.617035602470935
5   5   1   40.5758422758315    27.616035602470934  40.576842275831495  27.617035602470935
5   2   4   40.5758422758315    27.616035602470934  40.576842275831495  27.617035602470935
5   6   1   40.5758422758315    27.616035602470934  40.5758422758315    27.616035602470934
5   7   3   40.5758422758315    27.616035602470934  40.576842275831495  27.617035602470935
5   10  2   40.5758422758315    27.616035602470934  40.576842275831495  27.617035602470935
5   9   5   40.5758422758315    27.616035602470934  40.5758422758315    27.616035602470934

第一列定义UserID,第二列定义StoreID,第三列定义为Rating,第四和第五行,用户当前位置的lat和商店的第五和第六行lng。

每行定义一个用户帖子

我需要按如下方式拆分此数据集:

我想保留火车组中每个用户帖子的80%和测试集中的20%。

在Google上搜索我读到了Weka。我随机看到的一些教程(根据我的理解)擦除了行,但我不想这样。我想要我上面提到的。

所以,我的问题是:

  

是否有工具可以满足我的需求?除了Weka,我可以自由使用其他工具。如果Weka可以做我需要的东西,有人可以提供一些信息或者是一个家庭教师吗?

修改

为了提供一些关于我想要做的事情的更多信息,我正在建立一个推荐系统,并检查我需要分割数据的准确性,计算用户是否可以想要一个没有&#39的位置的预测;然后用推荐算法检查我的预测,用这些测试集来计算precision/recall, F measure etc ..

到目前为止我所做的是随机删除每个用户帖子的20%,但我认为有一些工具能够以比我更好的方式做到这一点(显然)。

提前致谢!

0 个答案:

没有答案