我正在学习熊猫,探索kaggle上的Google Play安装数据集:
https://www.kaggle.com/lava18/google-play-store-apps
其中一列是“安装”,我将值从原始“对象”类型转换为“浮动”以执行基本的描述性统计,但是当我查看内容时:
0.000000e+00 15
1.000000e+00 67
5.000000e+00 82
1.000000e+01 386
5.000000e+01 205
1.000000e+02 719
5.000000e+02 330
1.000000e+03 907
5.000000e+03 477
1.000000e+04 1054
5.000000e+04 479
1.000000e+05 1169
5.000000e+05 539
1.000000e+06 1579
5.000000e+06 752
1.000000e+07 1252
5.000000e+07 289
1.000000e+08 409
5.000000e+08 72
1.000000e+09 58
Name: Installs, dtype: int64
很明显,Google并没有给出确切的数字,而是给出了一个“ bin”。
使用以下基本命令进行绘制:
apps['Installs'].plot.bar()
产生几乎难以理解的图像。
建议进行更具可读性的演示?
建议以图形方式显示数据子集的不同分布(例如,仅“医疗”应用类别数据)?
非常感谢您。