我正在尝试去关联大量相关的随机变量。具体来说,我执行以下操作以生成1200 x 1000的设置数据,其中1200是变量数,1000是数据点数。
seed = 0
sample_size = 1000
n_var = 1200
total_rng = np.random.RandomState(seed=seed).randn(sample_size*n_var).reshape((n_var, sample_size))
根据所使用的种子,生成的数字的相关性可能会非常大(我见过接近0.1〜0.2次的时间),并且我需要变量具有接近0的相关性(最好在1e-4之内) ,但任何小于1e-2的内容也可以使用)。
我尝试了很多不同的方法,例如Cholesky和ZCA(How to implement ZCA Whitening? Python),但是前者由于正定条件而失败,而后者根据上述标准根本无法使相关性接近0。 / p>
有什么办法可以显着降低相关性?还是对这么多变量我能做到的最好?
谢谢!