我正在探索海量数据,然后在完整数据上应用 PCA 和 tSNE 来提取模式/集群。例如采样到特征= (1,000,000 * 1,000)
中,然后将50个 PC (1,000,000 * 50)
和 tSNE 嵌入2d (1,000,000 * 2)
中。
然后我用权重例如样本变为特征= (10,000 * 1,000)
,样本权重= (10,000 * 1)
,现在 PCA (10,000 * 50)
, tSNE (10,000 * 2)
显示出不同的特征模式和簇。
是否仍然可以对加权样本使用 PCA 和 tSNE ,或者只需要考虑抽样策略的过程就可以了吗?
谢谢