machine-learning - 最佳数据/分类技术

是否存在一些常用的强大数据分析技术，这些技术很常见，适用于各种情况下的各种数据？

例如，我需要对新数据进行分类。我已经对它进行了分类。我需要尝试（我的想法示例如下）：

尝试应用 PCA ，然后 RandomForestDecisions ;
通过方法X找到最重要的列（在 python 中使用 lib A ），然后应用 Kohonen网络使用这样的方式;
使用 Markov chaines 尝试 SVM （请参阅R中的此示例， Mathematica中的此 ，并在结果上使用 K-nearest method 改善结果;
使用此工具包查找数据异常，并尝试通常的 backpropogation NN （如此处）或 reccurent神经网络喜欢这里;
在线性分类器上结合遗传算法（如 this ）（我的意思是 this ）。

例如，我了解到xgboost *算法赢得了很多机器学习任务和竞赛。

我觉得宇航员/宇航员在当前数量的数据挖掘工具和算法中潜入Infinity，并寻找正确但有效的可行结果方法。感谢任何ML原则的结构愿景与链接）

您在问这些是否是有效的监督学习技巧？如果是这样，是的，您可以尝试所有这五个，看看哪一个给你最好的结果。使用哪种方法实际上取决于您的应用程序。

PCA减少了数据的维度/功能的数量。这通常是无监督学习方法的预处理步骤，例如最近邻（Eigenfaces等），但实际上可以与随机森林或其他决策树/装袋方法一起使用，以使您的代码运行更快并减少方差。

SVM（http://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html），QDA，LDA，逻辑回归（可能带有内核）是您可以尝试的众多方法之一。

为了简单起见，您还可以尝试使用一个隐藏层训练神经网络，看看情况如何。如果您的输出图层不是太大（~10），选择合理的隐藏图层大小（~200），并且输入图层大小相对较大（~60000），这种网络的基本实现可以为您提供分类准确性大约97％。

但同样，这取决于你想做什么。