Python Pandas DataFrame:拆分变量文本列然后计数

时间:2016-05-28 14:19:11

标签: pandas

我的数据库中有一列,每个单元格都有一个用逗号分隔的电子邮件地址列表。每个单元格具有不同数量的电子邮件地址。我试图弄清楚哪个电子邮件地址最常见。

我想我会将所有这些单元格合并到一个单元格中,然后用逗号分割,然后使用Counter函数查找最常用的电子邮件地址。但是我在第一步陷入困境。有没有办法结合一切?

1 个答案:

答案 0 :(得分:0)

In[0] import pandas as pd

In[1] data = pd.Series(["abc@def.com,pqr@def.com", "abc@def.com", "abc@def.com,xyz@def.com,pqr@def.com"])

In[3]: data = pd.DataFrame(data, columns=["Emails"])

In[4]: pd.Series(data.Emails.str.split(',', expand=True).values.ravel()).mode().values[0]
Out[4]: 'abc@def.com'