我使用python并且我已经将numpy / scipy作为依赖项。如果他们经过充分测试等等,可以提供更多。
假设我的数据集具有相对较少的不同值,每个数据集都具有较高的多重性。我将它表示为地图(值 - >多重性),比如
{ 1: 10000, 5: 100000, 6: 73452 }
我需要在这里做一些基本的统计,比如均值和方差。这里有两个明显的答案:
[1, 1, 1, 1...., 5, 5, 5, ...., 6, 6, 6 ...]
并致电np.mean
和np.var
,依此类推。这些方法有利有弊。
具有简单的优点,而且相当明显有效;但是时间和内存成本很高(在我的用例中,这通常会采用大小为1000的地图并将其转换为大小> 10,000,000的列表)。
相当容易,因为可以很容易地查找公式,但是不能使用库方法有点不舒服。我可以写错东西,错过一个特例,......一般来说,我更喜欢在库可用时使用它们。
在numpy / scipy堆栈中是否有办法对具有多重性的值集进行统计?