适用于列选择的机器学习算法

时间:2014-03-28 04:42:56

标签: algorithm data-structures machine-learning

我是机器学习的新手。在我的工作中,我需要一种机器学习算法,根据数据的传播,从2D矩阵中的许多列中选择一些列。以下是2D矩阵的示例:

400 700 4 1400

410 710 4 1500


416 716 4 1811

..............

410 710 4 1300

以前我使用标准偏差方法根据某些阈值选择列(作为特定列数据传播的度量)。观察到第3列是恒定的,最后一列变化很大。第1列和第2列也有所不同,但数据的传播很小。通过在每列上应用标准差,我得到(sigma)= 10,10,0,200。

我考虑了一些实验性阈值来丢弃一些列。如果(sigma)超过阈值范围,则相应的列被丢弃。我手动计算了这些阈值。虽然这种方法非常简单,但处理阈值是一项非常繁琐的工作,因为现有许多列。

出于这个原因,我想使用标准的机器学习算法,或者如果我可以使这些阈值自适应的话。因此,我不需要对代码中的阈值进行硬编码。任何人都可以为我推荐一个合适的算法吗?

0 个答案:

没有答案