我遇到了一个在线数据挖掘课程项目
http://www.kdnuggets.com/data_mining_course/assignments/final-project.html
数据是具有7000个特征作为基因的样本。每个基因都与一个值相关联。有些值是负面的。数据看起来像这样:
SNO“U48730_at”“U58516_at”“U73738_at”“X06956_at”“X16699_at”“X83863_at”
X1“27”“161”“0”“34”“2”“116”
X2“27”“265”“0”“98”“2”“123”
X3“24”“126”“0”“21”“0”“142”
X4“27”“163”“-1”“16”“-1”“134”
X5“41”“138”“1”“29”“1”“153”
X6“55”“107”“-1”“17”“0”“152”
X7“27”“99”“0”“57”“1”“139”
X8“2”“137”“-1”“19”“-3”“213”
X9“-5”“161”“ - 3”“23”“2”“193”
X10“0”“110”“ - 3”“7”“-1”“208”
X11“-7”“67”“1”“2”“-2”“149”
X12“4”“93”“3”“37”“2”“266”
X13“2”“75”“3”“30”“6”“205”
教授建议学生先做“数据清理”。原句是 阈值训练和测试数据的最小值为20,最大值为16,000。
我首先想到的是搜索每个基因,如果有一个超出界限的值,那么就把这个基因作为一个特征丢弃。但是,对于每个基因而言,必须有一个值超出范围的样本。
“阈值此数据”应该怎么办?如果值低于20,那么设置为20,或者如果值高于16000,那么只需将其设置为16000?
提前致谢!
答案 0 :(得分:0)
我认为你的最后一个假设是真的;超出范围20..16000的值应设置为这些值。
如果每个数据都具有该范围之外的值,则排除它可能没有意义。
尝试一下,看看会发生什么。