我想在weka中将我的数据集拆分为两个随机的一半。 我该怎么做?
答案 0 :(得分:2)
我有同样的问题,答案太简单了。首先,您需要使用weka过滤器(Unsupervised->实例)随机混洗实例的顺序,然后将数据集拆分为两部分。你可以在bellow链接找到完整的解释: http://cs-people.bu.edu/yingy/intro_to_weka.pdf
答案 1 :(得分:1)
你可以先使用filter中的随机数据集,使其随机使用,其次使用,删除百分比过滤器,首先使用30%进行测试并保存然后重复使用但检查INVERT框以便其他70 %并保存
所以你将进行测试,训练集随机分组
答案 2 :(得分:0)
我有一个想法,但没有使用Weka native api。如何使用随机数生成器? Math.random()
生成从0
到1
的数字。
假设我们要将dataset
分为set1
和set2
。
for every instance in dataset
{
if Math.random() < 0.5
put the instance into set1
else
put the instance into set2
}
我认为这种方法可能会为这两个子集生成相似数量的实例。如果您想生成完全相同的数量,可以向if-else
添加其他条件。
希望这可以为你提供一些灵感。