获得"列表的变化"具有多重性的值?

时间:2018-02-27 16:12:02

标签: python-3.x numpy statistics

我使用python并且我已经将numpy / scipy作为依赖项。如果他们经过充分测试等等,可以提供更多。

假设我的数据集具有相对较少的不同值,每个数据集都具有较高的多重性。我将它表示为地图(值 - >多重性),比如

{ 1: 10000, 5: 100000, 6: 73452 }

我需要在这里做一些基本的统计,比如均值和方差。这里有两个明显的答案:

  1. 将地图展开为大型数组[1, 1, 1, 1...., 5, 5, 5, ...., 6, 6, 6 ...]并致电np.meannp.var,依此类推。
  2. 手工编写统计数据
  3. 这些方法有利有弊。

    1. 具有简单的优点,而且相当明显有效;但是时间和内存成本很高(在我的用例中,这通常会采用大小为1000的地图并将其转换为大小> 10,000,000的列表)。

    2. 相当容易,因为可以很容易地查找公式,但是不能使用库方法有点不舒服。我可以写错东西,错过一个特例,......一般来说,我更喜欢在库可用时使用它们。

    3. 在numpy / scipy堆栈中是否有办法对具有多重性的值集进行统计?

0 个答案:

没有答案