我使用Python Faker生成虚假数据。但是我需要知道使用faker(例如:fake.name())可以生成不同伪造数据的最大数量(例如:伪名称)。
我已经生成了10万个假名,而且我的名字不到76,000个。我需要知道最大限制,以便我可以知道使用此包生成数据我们可以扩展多少。
我需要生成庞大的数据集。我也想知道是Php faker,perl faker对于不同的环境都是一样的吗?
其他用于生成大数据集的软件包将受到高度赞赏。
答案 0 :(得分:1)
我遇到了同样的问题,并对其进行了更多的研究。
在en_US
提供者中,大约有1000个姓氏和750个姓氏,用于大约750000个唯一组合。如果您随机选择名字和姓氏,则有可能会重复。但实际上,这就是现实世界的运作方式,那里有许多约翰·史密斯(John Smiths)和罗伯特·道尔(Robert Doyles)。
en
配置文件中有7203个姓氏和473个姓氏,可以提供帮助。 Faker选择名字和姓氏的组合,这意味着大约有7203 * 473 = 3407019。
但是,仍然有机会获得重复。
我通过在名称上添加数字来解决此问题。
我需要生成巨大的数据集。
请记住,实际上,任何庞大的名称数据集都会重复。我使用的是大型数据集(>一百万个名称),我们看到大量重复的名字和姓氏。
如果您阅读了造假者的程序包代码,则可能可以弄清楚如何对其进行修改,以便获得所有3M唯一的名称。