如何在weka中将数据集拆分为两个随机的一半?

时间:2013-07-20 07:25:34

标签: random weka split

我想在weka中将我的数据集拆分为两个随机的一半。 我该怎么做?

3 个答案:

答案 0 :(得分:2)

我有同样的问题,答案太简单了。首先,您需要使用weka过滤器(Unsupervised->实例)随机混洗实例的顺序,然后将数据集拆分为两部分。你可以在bellow链接找到完整的解释: http://cs-people.bu.edu/yingy/intro_to_weka.pdf

答案 1 :(得分:1)

你可以先使用filter中的随机数据集,使其随机使用,其次使用,删除百分比过滤器,首先使用30%进行测试并保存然后重复使用但检查INVERT框以便其他70 %并保存

所以你将进行测试,训练集随机分组

答案 2 :(得分:0)

我有一个想法,但没有使用Weka native api。如何使用随机数生成器? Math.random()生成从01的数字。

假设我们要将dataset分为set1set2

for every instance in dataset
{
    if Math.random() < 0.5
        put the instance into set1
    else
        put the instance into set2
}

我认为这种方法可能会为这两个子集生成相似数量的实例。如果您想生成完全相同的数量,可以向if-else添加其他条件。

希望这可以为你提供一些灵感。