Question

我是熊猫的新手，我试着总结一下我的csv文件。我创建了我的csv，其中包含Country和Count列，并使用pandas来计算每个国家/地区的总数。我也不确定我的csv格式是否正确转换。这是我的代码

import pandas as pd
df =pd.read_csv ("/Users/mani/Desktop/finalgeocount.csv")
print df.groupby(['COUNTRY']).sum()

这是我的原始csv文件数据

COUNTRY COUNT

China   1
China   1
China   1
China   2
Ireland 1
China   3
Moldova 1

我需要这样的输出：

China           8
Ireland         1
Moldova         1

但我的输出显示如下：

                            Unnamed: 2  Unnamed: 3  Unnamed: 4
COUNTRY                                                       
Albania                            NaN         NaN         NaN
Algeria                            NaN         NaN         NaN
Angola                             NaN         NaN         NaN
Anguilla                           NaN         NaN         NaN

Answer 1

您发布的原始数据是制表符分隔符，这是CSV的一种形式。在读取文件时，有助于指定分隔符：

>>> df = pd.read_csv('/Users/mani/Desktop/finalgeocount.csv', delimiter='\t')
>>> df
   COUNTRY  COUNT
0    China      1
1    China      1
2    China      1
3    China      2
4  Ireland      1
5    China      3
6  Moldova      1
>>> df.groupby('COUNTRY').sum()
         COUNT
COUNTRY       
China        8
Ireland      1
Moldova      1

N.B。我不得不整理一下原始数据，以便从第二个空行中删除一些流浪角色。

当我尝试使用pandas对csv文件求和时，它不起作用

1 个答案: