用大熊猫分组并添加字符串

时间:2019-06-25 00:55:49

标签: python pandas data-analysis

UPD:该错误是由于“邻居”列中存在NaN。有什么解决方案可以忽略它们吗?

我有一个包含3列的数据集:邮政编码,自治市镇,邻居。一个邮政编码区域中可以存在多个邻居。这些行需要合并成一排,并用逗号分隔邻域。

我尝试过的是:

df.groupby(['Postcode', 'Borough'])['Neighborhood'].apply(lambda neighborhood: ','.join(neighborhood))

 df.groupby(['Postcode', 'Borough'])['Neighborhood'].apply(','.join).reset_index()

每次遇到此错误:“ TypeError:序列项0:预期的str实例,找到了浮点数”

df.groupby(['Postcode', 'Borough'])['Neighborhood'].apply(lambda group_series: group_series.tolist()).reset_index()

添加一个列表作为行值,这很接近,但不完全是我所需要的。请帮忙? (数据类型低于fyi)。

df.dtypes

Postcode        object
Borough         object
Neighborhood    object
dtype: object

1 个答案:

答案 0 :(得分:0)

怎么样:

df.dropna(subset=['Neighborhood']).groupby(['Postcode', 'Borough'])['Neighborhood'].apply(','.join)

这将在执行groupby操作之前在邻居列中删除NaN值。