在对函数进行一些研究之后,我试图在R中扩展我的数据(它似乎遵循(x - mean) / std.dev
。这正是我所寻找的,所以我在R中缩放了我的数据帧。我d还想确保我的假设是正确的,这样我就没有错误的结论。
的假设
R独立地缩放每列。因此,第1列将有自己的均值和标准差。第2列将有自己的。
假设我有一个大小为100,000的数据集,我可以扩展3列。如果我继续删除Z-Score超过3且小于-3的所有列,我可以最多 (100,000 * .003) = 900 rows removed!
然而,当我去截断我的数据时,我的100,000行留下了94,798。这意味着删除了5,202行。
这是否意味着我对规模的假设是错误的,并且它不按列扩展?
的更新
所以我进行了测试,并自己进行了Z-Score转换。最后删除了相同数量的列,所以我相信 scale 确实有效。现在我只是好奇为什么当删除3个标准偏差时,超过.3%的数据被删除。