使用Python创建一个大型数据集

时间:2014-09-11 17:38:15

标签: python dataset schema

我想使用Python创建一个大型数据集(符合给定的模式)。有没有一种很好的方法来指定模式(每个字段的数据类型和长度),让Python为我创建大约100,000个观察结果?有没有好的工具?

我熟悉Python ...因此我想坚持下去。如果有人使用Bash或任何其他方式,请告诉我。

谢谢! PD。

2 个答案:

答案 0 :(得分:2)

您应该查看fake-factory包。

答案 1 :(得分:1)

请看一下: -

https://github.com/sanju51/Generate-large-Dataset-dynamically-in-Python

速度: - 5秒内100条记录(10列) 用法: - python generate_dataset.py -i Metadata.csv -f sample.csv -nrec 100000 -d',' - hdd Y