我是熊猫的新手,我试着总结一下我的csv文件。我创建了我的csv,其中包含Country和Count列,并使用pandas来计算每个国家/地区的总数。我也不确定我的csv格式是否正确转换。这是我的代码
import pandas as pd
df =pd.read_csv ("/Users/mani/Desktop/finalgeocount.csv")
print df.groupby(['COUNTRY']).sum()
这是我的原始csv文件数据
COUNTRY COUNT
China 1
China 1
China 1
China 2
Ireland 1
China 3
Moldova 1
我需要这样的输出:
China 8
Ireland 1
Moldova 1
但我的输出显示如下:
Unnamed: 2 Unnamed: 3 Unnamed: 4
COUNTRY
Albania NaN NaN NaN
Algeria NaN NaN NaN
Angola NaN NaN NaN
Anguilla NaN NaN NaN
答案 0 :(得分:1)
您发布的原始数据是制表符分隔符,这是CSV的一种形式。在读取文件时,有助于指定分隔符:
>>> df = pd.read_csv('/Users/mani/Desktop/finalgeocount.csv', delimiter='\t')
>>> df
COUNTRY COUNT
0 China 1
1 China 1
2 China 1
3 China 2
4 Ireland 1
5 China 3
6 Moldova 1
>>> df.groupby('COUNTRY').sum()
COUNT
COUNTRY
China 8
Ireland 1
Moldova 1
N.B。我不得不整理一下原始数据,以便从第二个空行中删除一些流浪角色。