我有一个矩阵X,其大小为100 * 2000倍。我想知道在下面的命令中哪种缩放技术应用于矩阵X,以及为什么它不使用z-score进行缩放?
X = X./repmat(sqrt(sum(X.^2)),size(X,1),1);
答案 0 :(得分:1)
缩放来自线性代数。这就是我们所说的通过生成a unit vector进行规范化。假设每一行都是一个观察,每一列都是一个特征,这里发生的是我们正在经历你收集的每一个观察,并对所有观察值的每个特征值进行标准化,以便特定的整体长度/幅度所有观察的特征都设置为1。
底部划分会查看每个要素,并确定所有观察的要素的范数或大小。一旦找到这些大小,就可以为每个观察采用每个特征并除以它们各自的大小。
经常使用单位向量的原因是相对于一组基向量描述特征空间中的点。通过生成单位向量进行归一化为您提供了在特征空间中表示一个分量的最小可能方式,因此这里可能发生的是现在正在对变量进行变换,使得每个分量/特征都以集合的形式表示。基矢量。每个基础向量是数据中的一个特征。
查看有关单位向量的维基百科文章,了解更多详情:http://en.wikipedia.org/wiki/Unit_vector