使用Python Faker包的不同伪造数据的最大限制

时间:2017-11-15 04:34:23

标签: python faker

我使用Python Faker生成虚假数据。但是我需要知道使用faker(例如:fake.name())可以生成不同伪造数据的最大数量(例如:伪名称)。

我已经生成了10万个假名,而且我的名字不到76,000个。我需要知道最大限制,以便我可以知道使用此包生成数据我们可以扩展多少。

我需要生成庞大的数据集。我也想知道是Php faker,perl faker对于不同的环境都是一样的吗?

其他用于生成大数据集的软件包将受到高度赞赏。

1 个答案:

答案 0 :(得分:1)

我遇到了同样的问题,并对其进行了更多的研究。

en_US提供者中,大约有1000个姓氏和750个姓氏,用于大约750000个唯一组合。如果您随机选择名字和姓氏,则有可能会重复。但实际上,这就是现实世界的运作方式,那里有许多约翰·史密斯(John Smiths)和罗伯特·道尔(Robert Doyles)。

en配置文件中有7203个姓氏和473个姓氏,可以提供帮助。 Faker选择名字和姓氏的组合,这意味着大约有7203 * 473 = 3407019。

但是,仍然有机会获得重复。

我通过在名称上添加数字来解决此问题。

  

我需要生成巨大的数据集。

请记住,实际上,任何庞大的名称数据集都会重复。我使用的是大型数据集(>一百万个名称),我们看到大量重复的名字和姓氏。

如果您阅读了造假者的程序包代码,则可能可以弄清楚如何对其进行修改,以便获得所有3M唯一的名称。