“阈值数据”意味着什么?

时间:2013-10-14 02:39:17

标签: data-mining

我遇到了一个在线数据挖掘课程项目

http://www.kdnuggets.com/data_mining_course/assignments/final-project.html

数据是具有7000个特征作为基因的样本。每个基因都与一个值相关联。有些值是负面的。数据看起来像这样:

SNO“U48730_at”“U58516_at”“U73738_at”“X06956_at”“X16699_at”“X83863_at”

X1“27”“161”“0”“34”“2”“116”
X2“27”“265”“0”“98”“2”“123”
X3“24”“126”“0”“21”“0”“142”
X4“27”“163”“-1”“16”“-1”“134”
X5“41”“138”“1”“29”“1”“153”
X6“55”“107”“-1”“17”“0”“152”
X7“27”“99”“0”“57”“1”“139”
X8“2”“137”“-1”“19”“-3”“213”
X9“-5”“161”“ - 3”“23”“2”“193”
X10“0”“110”“ - 3”“7”“-1”“208”
X11“-7”“67”“1”“2”“-2”“149”
X12“4”“93”“3”“37”“2”“266”
X13“2”“75”“3”“30”“6”“205”

教授建议学生先做“数据清理”。原句是  阈值训练和测试数据的最小值为20,最大值为16,000。

我首先想到的是搜索每个基因,如果有一个超出界限的值,那么就把这个基因作为一个特征丢弃。但是,对于每个基因而言,必须有一个值超出范围的样本。

“阈值此数据”应该怎么办?如果值低于20,那么设置为20,或者如果值高于16000,那么只需将其设置为16000?

提前致谢!

1 个答案:

答案 0 :(得分:0)

我认为你的最后一个假设是真的;超出范围20..16000的值应设置为这些值。

如果每个数据都具有该范围之外的值,则排除它可能没有意义。

尝试一下,看看会发生什么。