应用错误收集

我遇到了一个在线数据挖掘课程项目

http://www.kdnuggets.com/data_mining_course/assignments/final-project.html

数据是具有7000个特征作为基因的样本。每个基因都与一个值相关联。有些值是负面的。数据看起来像这样：

SNO“U48730_at”“U58516_at”“U73738_at”“X06956_at”“X16699_at”“X83863_at”

X1“27”“161”“0”“34”“2”“116”
X2“27”“265”“0”“98”“2”“123”
X3“24”“126”“0”“21”“0”“142”
X4“27”“163”“-1”“16”“-1”“134”
X5“41”“138”“1”“29”“1”“153”
X6“55”“107”“-1”“17”“0”“152”
X7“27”“99”“0”“57”“1”“139”
X8“2”“137”“-1”“19”“-3”“213”
X9“-5”“161”“ - 3”“23”“2”“193”
X10“0”“110”“ - 3”“7”“-1”“208”
X11“-7”“67”“1”“2”“-2”“149”
X12“4”“93”“3”“37”“2”“266”
X13“2”“75”“3”“30”“6”“205”

教授建议学生先做“数据清理”。原句是阈值训练和测试数据的最小值为20，最大值为16,000。

我首先想到的是搜索每个基因，如果有一个超出界限的值，那么就把这个基因作为一个特征丢弃。但是，对于每个基因而言，必须有一个值超出范围的样本。

“阈值此数据”应该怎么办？如果值低于20，那么设置为20，或者如果值高于16000，那么只需将其设置为16000？

提前致谢！

“阈值数据”意味着什么？

1 个答案: