低维和高维数据

时间:2017-06-02 17:22:30

标签: machine-learning artificial-intelligence svm dimensions

我是机器学习的新手,当我学习SVM时,我发现了这个术语:"低维和高维数据"所以任何人都可以向我解释他们是什么,有什么区别?

3 个答案:

答案 0 :(得分:3)

它通常是指您尝试分类的问题中每个样本的功能数量。例如,着名的虹膜花数据集仅包括4个特征(萼片长度,萼片宽度,花瓣宽度,花瓣长度),并且将被视为低维数据集。

处理更复杂数据的其他数据集可能包含每个样本的数百或数千个特征。这些被认为是高维数据集。

答案 1 :(得分:1)

根据The Elements of Statistical Learning(第18章,第649页-或第二版pdf的第668页链接在此处)中的定义,高维问题是其中的问题

  

特征数量 p 远远大于特征数量   观察结果 N ,通常写为 p >> N

因此,高维数据实际上并不涉及大量特征(如公认的答案所示),它是由特征/样本比率定义的。请注意,此定义适用于机器学习社区,但可能与其他领域的相同想法无关。

正如quora answer所建议的那样,使用高维数据开发模型通常与在产生确定性答案时引入强大的假设是同义的。

答案 2 :(得分:1)

高/低维与数据集中的观测值和特征之间的比率相关。在这种情况下,观测值的数量明显低于被认为是高维数据集的要素的数量。