我有一个原始集合的文件,看起来像这样
1 1 1 40.57784227583149 27.618035602470936 40.576842275831495 27.617035602470935
1 3 5 40.57784227583149 27.618035602470936 40.576842275831495 27.617035602470935
1 2 4 40.57784227583149 27.618035602470936 40.576842275831495 27.617035602470935
1 10 3 40.57784227583149 27.618035602470936 40.576842275831495 27.617035602470935
1 5 5 40.57784227583149 27.618035602470936 40.576842275831495 27.617035602470935
1 7 4 40.57784227583149 27.618035602470936 40.576842275831495 27.617035602470935
2 7 1 40.576842275831495 27.617035602470935 40.576842275831495 27.617035602470935
2 8 5 40.576842275831495 27.617035602470935 40.5758422758315 27.616035602470934
2 1 5 40.576842275831495 27.617035602470935 40.576842275831495 27.617035602470935
2 5 1 40.576842275831495 27.617035602470935 40.576842275831495 27.617035602470935
2 4 4 40.576842275831495 27.617035602470935 40.5758422758315 27.616035602470934
2 3 2 40.576842275831495 27.617035602470935 40.576842275831495 27.617035602470935
3 5 4 40.576842275831495 27.617035602470935 40.576842275831495 27.617035602470935
3 7 5 40.576842275831495 27.617035602470935 40.576842275831495 27.617035602470935
3 4 1 40.576842275831495 27.617035602470935 40.5758422758315 27.616035602470934
3 8 3 40.576842275831495 27.617035602470935 40.5758422758315 27.616035602470934
3 2 1 40.576842275831495 27.617035602470935 40.576842275831495 27.617035602470935
4 5 4 40.576842275831495 27.617035602470935 40.576842275831495 27.617035602470935
4 9 1 40.576842275831495 27.617035602470935 40.5758422758315 27.616035602470934
4 8 4 40.576842275831495 27.617035602470935 40.5758422758315 27.616035602470934
4 4 4 40.576842275831495 27.617035602470935 40.5758422758315 27.616035602470934
4 10 5 40.576842275831495 27.617035602470935 40.576842275831495 27.617035602470935
4 7 3 40.576842275831495 27.617035602470935 40.576842275831495 27.617035602470935
5 5 1 40.5758422758315 27.616035602470934 40.576842275831495 27.617035602470935
5 2 4 40.5758422758315 27.616035602470934 40.576842275831495 27.617035602470935
5 6 1 40.5758422758315 27.616035602470934 40.5758422758315 27.616035602470934
5 7 3 40.5758422758315 27.616035602470934 40.576842275831495 27.617035602470935
5 10 2 40.5758422758315 27.616035602470934 40.576842275831495 27.617035602470935
5 9 5 40.5758422758315 27.616035602470934 40.5758422758315 27.616035602470934
第一列定义UserID,第二列定义StoreID,第三列定义为Rating,第四和第五行,用户当前位置的lat和商店的第五和第六行lng。
每行定义一个用户帖子
我需要按如下方式拆分此数据集:
我想保留火车组中每个用户帖子的80%和测试集中的20%。
在Google上搜索我读到了Weka。我随机看到的一些教程(根据我的理解)擦除了行,但我不想这样。我想要我上面提到的。
所以,我的问题是:
是否有工具可以满足我的需求?除了Weka,我可以自由使用其他工具。如果Weka可以做我需要的东西,有人可以提供一些信息或者是一个家庭教师吗?
修改
为了提供一些关于我想要做的事情的更多信息,我正在建立一个推荐系统,并检查我需要分割数据的准确性,计算用户是否可以想要一个没有&#39的位置的预测;然后用推荐算法检查我的预测,用这些测试集来计算precision/recall, F measure etc
..
到目前为止我所做的是随机删除每个用户帖子的20%,但我认为有一些工具能够以比我更好的方式做到这一点(显然)。
提前致谢!