我有一些客户数据-
Name | Age | Gender | Phone Number | Email Id |
abc. | 25 | M. | 234 567 890 | example.com|
有6万行这样的数据行和多个表。如何使用python为该数据集生成综合数据?
我对此一无所知。任何的意见都将会有帮助。谢谢!
答案 0 :(得分:2)
Pyhton faker
是您的朋友在这里。它可以生成本地化的伪造数据,包括姓名,地址,电话和信用卡号等等。
from faker import Faker
fake = Faker()
n = 1000
df = pd.DataFrame([[fake.name(),
np.random.randint(19,91),
np.random.choice(['M.', 'F.']),
fake.phone_number(),
fake.email()] for _ in range(n)],
columns=['Name', 'Age', 'Gender', 'Phone number', 'Email ID'])
df.head()的输出:
Name Age Gender Phone number Email ID
0 Miranda Hinton 21 F. 018.482.1404 meghan91@lopez.biz
1 Donald Donovan 51 F. 572.846.4120x995 jacobcarson@melton.com
2 Shannon Grimes 72 F. 0289879995 phillip93@gmail.com
3 Heather Perez 87 F. 012-033-2318 rodriguezjeffrey@hotmail.com
4 Jacqueline Pearson 22 M. 178-913-4566x89793 brianclark@hotmail.com