为weka datamining检索的缺失数据

时间:2017-10-17 10:37:41

标签: weka

我需要从我的数据库中检索要用weka挖掘的数据,但有关表中缺少一些数据,我是否应该手动改善那些缺少属性的arff文件? 在我的工作中,我有一张人员表(身份证,姓名,年龄,国籍,专业,级别,电子邮件,密码),他们将参加特定课程。 所以根据他们的个人资料(水平,专业)和他们的踪迹(见课程视频或不,有帐户或创建一个新帐户)我需要确定他是否在课程中入学的概率。 所以这里缺少的值是see-video(yes,no)和account(new,no)。 我是数据挖掘和weka的新手,我希望这个想法很清楚。 谢谢!

1 个答案:

答案 0 :(得分:0)

首先,您需要考虑一些数据缺失的含义。它是否完全随机丢失,好像有人拿了一个完整的数据集并掷骰子来决定要删除哪些数据?或者数据丢失的事实可以为您提供有关该实例的一些信息吗?例如,如果您没有关于是否有人创建帐户的数据,也许这意味着他们拒绝共享此数据,该类别中的人实际上不太可能注册课程?

某些技术(例如常用的J48树分类器)可以处理丢失的数据。 J48实质上为一个实例处理一个缺失值,例如该值的聚合值,以及它没有丢失的所有属性。如果数据完全随机丢失,则应该给出有效的结果。

其他技术无法处理丢失的数据,如果您想使用其中一种技术,则必须从数据中删除属性或实例,直到没有剩余数据丢失,或者用某些内容替换缺失值允许使用这些属性和实例,或这些方法的某种组合。一种典型的方法是使用数字属性的非缺失值的平均值或标称属性的最常见非缺失值替换缺失值,但您也可以使用您选择的其他值替换缺失值 - 你甚至可以治疗'失踪'作为名义属性的新的单独值。

Weka在进行分类之前有过滤器可以为您执行这些操作,因此您不必自己进入并编辑.arff数据。