我想使用Python创建一个大型数据集(符合给定的模式)。有没有一种很好的方法来指定模式(每个字段的数据类型和长度),让Python为我创建大约100,000个观察结果?有没有好的工具?
我熟悉Python ...因此我想坚持下去。如果有人使用Bash或任何其他方式,请告诉我。
谢谢! PD。
答案 0 :(得分:2)
您应该查看fake-factory包。
答案 1 :(得分:1)
请看一下: -
https://github.com/sanju51/Generate-large-Dataset-dynamically-in-Python
速度: - 5秒内100条记录(10列) 用法: - python generate_dataset.py -i Metadata.csv -f sample.csv -nrec 100000 -d',' - hdd Y