有人看到过减少数据量以减少计算量的任何方法吗?我的意思是,当功能数量巨大时,可以应用PCA来减少尺寸和计算量。如果我们有少量功能却有大量数据点(时间序列)怎么办? 如何减少这种情况?
答案 0 :(得分:0)
二次采样非常普遍。
对子样本进行抽样时,许多统计属性会得到很好的保留。如果您有1000000点,那么仅10000的估计均值已经非常接近;也许在您数据的可靠性之内。
另一种方法是使用简单快速的方法(例如k-means)和大k(例如sqrt(N))进行聚类。这将使用k个数据点以最小二乘目标近似您的数据。 (之后,您还应该使用 weights ,因为生成的向量将反映不同数量的数据。)
最后但并非最不重要的是,可以在转置矩阵上使用许多归约技术(可能包括PCA)。然后,您减少实例数,而不是变量数。但是PCA相当昂贵,在转置矩阵上,它将缩放O(n³)。因此,我宁愿考虑直接使用截断的SVD。
但是显然您的数据是时间序列。我建议您寻求减少数据量的方法,以整合您对此处重要内容的了解。