machine-learning - 维数降低意味着什么？

维数降低意味着什么？

时间：2010-01-03 09:26:24

标签： machine-learning artificial-intelligence data-mining terminology

维度降低究竟意味着什么？

我搜索了它的含义，我发现它意味着将原始数据转换为更有用的形式。那么以有用的形式提供数据有什么好处，我的意思是如何在实际生活中使用它（应用程序）？

6 个答案:

答案 0 :(得分：35)

维度减少是指将极高维度的数据转换为低维度的数据，使得每个较低维度传达更多信息。

这通常在解决机器学习问题时完成，以便为分类或回归任务获得更好的功能。

下面是一个人为的例子 - 假设你有100部电影和1000人的列表，每个人都知道他们是喜欢还是不喜欢100部电影。因此，对于每个实例（在这种情况下意味着每个人），您有一个长度为100的二进制向量[如果该人不喜欢第i部电影，则位置i为0，否则为1]。
您可以直接在这些矢量上执行机器学习任务..但您可以决定5种类型的电影并使用您已有的数据，确定该人是喜欢还是不喜欢整个类型，从而减少您的数据从大小为100的向量到大小为5的向量[如果人喜欢类型i，则位置i为1]

长度为5的向量可以被认为是长度为100的向量的良好代表，因为大多数人可能只喜欢他们喜欢的类型的电影。

然而，它不会成为一个确切的代表，因为可能会有一个人讨厌除了一个以外的所有类型的电影。

关键在于，减少的向量传达了较大的信息中的大部分信息，同时消耗的空间更少，计算速度更快。

答案 1 :(得分：8)

你的问题有点模糊，但是有一个有趣的统计技术可能就是你所谓的Principal Component Analysis，它做了类似的事情（偶然地绘制了我的第一个真实世界的结果）编程任务）

这是一种巧妙而巧妙的技术，可广泛应用。我将其应用于蛋白质氨基酸序列之间的相似性，但我已经看到它用于分析细菌与麦芽威士忌之间的关系。

考虑一个事物集合的某些属性的图表，其中一个具有两个独立变量 - 分析这两个上的关系显然在两个维度上绘制，您可能会看到点的分散。如果您有三个变量，则可以使用3D图形，但之后会开始耗尽尺寸。

在PCA中，可能有几十个甚至一百个或更多个独立因子，所有这些都需要在垂直轴上绘制。使用PCA可以做到这一点，然后分析得到的多维图，找到图中包含最大信息量的两个或三个轴的集合。例如，第一主坐标将是复合轴（即，通过n维空间的某个角度），当沿着它绘制点时，其具有最多的信息。第二个轴与此垂直（记住这是n维空间，所以有很多垂线），其中包含第二大数量的信息等。

在2D或3D中绘制结果图表通常会为您提供包含原始数据集中大量信息的数据的可视化。通常情况下，该技术被认为是有效的，可以寻找包含大约70％原始数据的表示 - 足以可视化关系，并且在原始统计数据中不会显现出一些信心。请注意，该技术要求所有因素具有相同的权重，但鉴于它是一种极其广泛适用的方法，值得更广泛地了解并且在大多数统计软件包中都可用（我在1980年的ICL 2700上完成了我的工作 - 这是和iPhone一样强大）

答案 2 :(得分：2)

http://en.wikipedia.org/wiki/Dimension_reduction

也许您已经听说过PCA（主成分分析），它是一种降维算法。

其他包括LDA，基于矩阵分解的方法等。

这是一个简单的例子。你有很多文本文件，每个文件都包含一些单词。文件可以分为两类。您希望将文件可视化为2D / 3D空间中的点，以便您可以清楚地看到分布。因此，您需要进行降维以将包含大量单词的文件仅转换为2维或3维。

答案 3 :(得分：2)

衡量某事物的维度，是描述它所需的数字的数量。因此，例如，描述空间中某个点位置所需的数字将为3（x，y和z）。

现在让我们考虑火车沿着一条长而曲折的轨道穿越山脉的位置。乍一看，这似乎是一个三维问题，需要指定经度，纬度和高度测量。但是，如果您只是从头开始沿着轨道行进的距离，这3个维度可以减少到一个。

如果您被赋予使用神经网络或某种统计技术来预测火车在给定一定量燃料的情况下能够获得多少燃料的任务，那么使用一维数据比使用三维数据要容易得多版本

答案 4 :(得分：0)

这是data mining的技巧。它的主要好处是它允许您生成多维数据的可视化表示。人类大脑无法识别和分析视觉数据中的模式，但最多可以处理三个维度（如果使用时间则为四个，即动画显示） - 因此任何超过3维的数据都需要以某种方式压缩到3（或者2，因为在3D中绘制数据通常在技术上很困难。）

BTW，一种非常简单的降维方式是使用颜色来表示其他维度，例如在heat maps中。

答案 5 :(得分：0)

假设您正在建立一个关于大量成年人的信息数据库。它也将非常详细。所以我们可以说数据库的尺寸很大。

AAMOF每个数据库记录实际上都包含一个人的智商和鞋子尺寸的度量。现在让我们假装这两个特征是高度相关的。与IQ相比，鞋子尺寸可能很容易测量，我们希望尽快使用有用的数据填充数据库。我们可以做的一件事就是提前开展并记录新数据库记录的鞋码，推迟收集IQ数据的任务。我们仍然能够使用鞋码来估计智商，因为这两个指标是相关的。

我们将使用一种非常简单的实际尺寸缩减形式，最初将IQ从记录中删除。主成分分析，各种形式的因子分析和其他方法是这个简单想法的扩展。