我正在寻找一种能让我生成具有某些统计特性的数据集的工具。例如,假设我想生成100万个带有x个异常值的整数,用于测试。
是否有用于生成此类测试数据集的工具?我不一定需要任何花哨的东西,只需要一些基本的功能。
答案 0 :(得分:3)
最简单的技术,至少是数学上最容易理解的,是accept-reject algorithm算法。
答案 1 :(得分:1)
Math from apache commons有一些工具可用于从简单的概率分布生成数据。使用您正在使用的任何系统的random()功能,roll your own variant这些生成函数实际上非常容易。假设random()返回一个介于0和1之间的均匀分布的随机数,您只需通过所需分布的inverse cumulative distribution function即可获得所需的随机数。如果您需要非常喜欢的东西,可以使用Markov Chains。