我有一个形状为4096
的矩阵,这意味着我有['sum', 'std, 'max', 'skew', 'min', 'mean', 'count', 'percent_true', 'n_unique', 'mode']
个功能和50个mio示例。我想知道这些功能是如何相关的。问题是,我无法一步计算,因为有太多数据要把它放入RAM中。
我现在的想法是:不是使用所有数据计算相关性,而是可以在随机子集上计算它,然后平均这些相关性。问题:假设我会经常无限制地执行此操作,结果与一次计算整个数据的结果相同吗?