最佳数据/分类技术

时间:2016-04-30 01:16:30

标签: machine-learning neural-network data-mining data-analysis toolkit

是否存在一些常用的强大数据分析技术,这些技术很常见,适用于各种情况下的各种数据?

例如,我需要对新数据进行分类。我已经对它进行了分类。我需要尝试(我的想法示例如下):

  1. 尝试应用 PCA ,然后 RandomForestDecisions ;
  2. 通过方法X找到最重要的列(在 python 中使用 lib A ),然后应用 Kohonen网络使用这样的方式;
  3. 使用 Markov chaines 尝试 SVM (请参阅R中的此示例 Mathematica中的 ,并在结果上使用 K-nearest method 改善结果;
  4. 使用此工具包查找数据异常,并尝试通常的 backpropogation NN (如此处)或 reccurent神经网络喜欢这里;
  5. 线性分类器上结合遗传算法(如 this )(我的意思是 this )。
  6. 例如,我了解到xgboost *算法赢得了很多机器学习任务和竞赛。

    我觉得宇航员/宇航员在当前数量的数据挖掘工具和算法中潜入Infinity,并寻找正确但有效的可行结果方法。感谢任何ML原则的结构愿景与链接)

1 个答案:

答案 0 :(得分:1)

您在问这些是否是有效的监督学习技巧?如果是这样,是的,您可以尝试所有这五个,看看哪一个给你最好的结果。使用哪种方法实际上取决于您的应用程序。

PCA减少了数据的维度/功能的数量。这通常是无监督学习方法的预处理步骤,例如最近邻(Eigenfaces等),但实际上可以与随机森林或其他决策树/装袋方法一起使用,以使您的代码运行更快并减少方差。

SVM(http://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html),QDA,LDA,逻辑回归(可能带有内核)是您可以尝试的众多方法之一。

为了简单起见,您还可以尝试使用一个隐藏层训练神经网络,看看情况如何。如果您的输出图层不是太大(~10),选择合理的隐藏图层大小(~200),并且输入图层大小相对较大(~60000),这种网络的基本实现可以为您提供分类准确性大约97%。

但同样,这取决于你想做什么。

相关问题