Question

我试图从熊猫那里使用交叉表功能来获取表格数据的百分比，但是每列的行明智的总和是不正确的（我用Excel总和对它进行了两次检查）。基本上，在进出口贸易数据中，我试图获取每个国家/地区的期间百分比。

表格数据：

这是我要按时段获取每个国家/地区百分比的tabular data on public gist。

要按列求和，我是这样的：

import pandas as pd

df=pd.read_csv('minimal_data.csv', encoding='utf-8')
df.loc[:,'Total'] = df.sum(axis=1)

但是该总和与以excel总和的方式不同。我不知道为什么

然后我尝试按照以下方法获取表格数据的百分比：

pd.crosstab(index=df.index, 
                     columns=df.columns, 
                     values=df.columns.value, 
                     aggfunc='sum', 
                     normalize='index').applymap('{:.2f}%'.format)

我期望表格数据所占的百分比，其中每个国家/地区所占的百分比。我不知道为什么我没有获得正确的总和和预期百分比表。有人可以指出我吗？任何快速的解决方案来完成这项工作？

我认为使用crosstab就在这里，但是通过保持相同的行和列名称约定，我没有得到正确的百分比表。有什么想法可以做到这一点吗？

Answer 1

目前尚不清楚“ sum”是错误的还是与Excel不同。如果您想要计算的总数的百分比，则可以执行此操作（如果您已经将日期作为索引读取了csv，这会更容易，即无需设置索引）：< / p>

df = df.set_index('quarter')

df.div(df.Total, axis=0).applymap(lambda x: f'{x * 100:.2f}%')

Answer 2

要获取百分比，

df.set_index('quarter').apply(lambda x: (x / x.sum())*100, axis=1)

输出

              AUSTRAL     CANADA     N ZEAL     MEXICO   NICARAG   URUGUAY    C RICA    BRAZIL   HONDURA   IRELAND
quarter                                                                                                           
2014-01-01  25.440018  25.682501  26.799560  13.356812  4.645008  2.502126  1.185601  0.000000  0.388373  0.000000
2014-04-01  34.489028  20.473965  27.223601  10.739338  3.545756  2.637722  0.645318  0.000000  0.245270  0.000000
2014-07-01  41.388462  19.418827  17.413776  13.046643  4.365293  3.062794  1.000460  0.000000  0.303746  0.000000
2014-10-01  45.921175  19.947340  12.453399  10.987784  6.659666  2.472346  1.220976  0.000000  0.337314  0.000000
2015-01-01  34.779864  18.914200  23.802183  12.789158  4.607413  3.750432  1.113557  0.000000  0.242027  0.001166
2015-04-01  40.115581  15.889617  24.620569  12.233570  2.614697  3.684628  0.669135  0.000000  0.140994  0.031210
2015-07-01  44.545033  19.933480  16.419047  13.207045  1.903940  3.151725  0.706372  0.000000  0.000000  0.133357
2015-10-01  36.019231  25.727244  12.442655  16.527229  4.201449  3.803939  0.998293  0.000000  0.000000  0.279961
2016-01-01  29.991387  22.293687  24.963800  15.665886  3.364758  2.537703  0.964889  0.000000  0.000000  0.217890
2016-04-01  28.368131  22.124064  26.707744  16.011170  2.974021  2.736466  0.902486  0.000000  0.008214  0.167704
2016-07-01  25.368992  28.843584  17.562638  18.601159  4.361163  4.197427  0.900461  0.001082  0.000000  0.163494
2016-10-01  19.623932  30.095599  11.720699  27.695783  5.386881  3.950341  1.098037  0.262948  0.000000  0.165780
2017-01-01  20.799706  22.871970  23.475104  23.519770  4.726189  2.564349  1.105563  0.777981  0.000000  0.159366
2017-04-01  20.961391  24.807151  22.372555  20.141108  4.201882  3.848614  0.717434  2.847786  0.000000  0.102079
2017-07-01  26.326774  27.124571  16.796464  20.485338  4.180663  3.973982  0.748360  0.050250  0.122305  0.191292
2017-10-01  26.996354  29.432880  11.569669  22.702213  5.579304  2.623607  0.794317  0.000000  0.156468  0.145188
2018-01-01  20.148823  25.861165  24.566617  19.748647  5.864245  2.507594  0.946862  0.000000  0.218396  0.137650
2018-04-01  22.281189  26.300865  24.879217  18.074004  4.368848  3.058836  0.757353  0.000000  0.196459  0.083229
2018-07-01  24.996713  28.873588  16.749910  19.016680  5.816461  3.499820  0.757308  0.000000  0.140196  0.149324
2018-10-01  25.305780  31.831372   9.842619  22.351502  6.039240  3.353802  0.824540  0.000000  0.236478  0.214668

要绘制折线图

>>> df.plot(kind='line')
<matplotlib.axes._subplots.AxesSubplot object at 0x7f418a3710b8>
>>> from matplotlib import pyplot as plt
>>> plt.show()

如何获得百分比以在熊猫的多列中按行求和？

2 个答案: