UPD:该错误是由于“邻居”列中存在NaN。有什么解决方案可以忽略它们吗?
我有一个包含3列的数据集:邮政编码,自治市镇,邻居。一个邮政编码区域中可以存在多个邻居。这些行需要合并成一排,并用逗号分隔邻域。
我尝试过的是:
df.groupby(['Postcode', 'Borough'])['Neighborhood'].apply(lambda neighborhood: ','.join(neighborhood))
或
df.groupby(['Postcode', 'Borough'])['Neighborhood'].apply(','.join).reset_index()
每次遇到此错误:“ TypeError:序列项0:预期的str实例,找到了浮点数”
df.groupby(['Postcode', 'Borough'])['Neighborhood'].apply(lambda group_series: group_series.tolist()).reset_index()
添加一个列表作为行值,这很接近,但不完全是我所需要的。请帮忙? (数据类型低于fyi)。
df.dtypes
Postcode object
Borough object
Neighborhood object
dtype: object
答案 0 :(得分:0)
怎么样:
df.dropna(subset=['Neighborhood']).groupby(['Postcode', 'Borough'])['Neighborhood'].apply(','.join)
这将在执行groupby操作之前在邻居列中删除NaN值。