我有一个订单数据集和下订单的人。订单具有唯一的标识符,而买方在多个订单中具有唯一的标识符。这是该数据集的示例:
| Order_ID | Order_Date | Buyer_ID |
|----------|------------|----------|
| 123421 | 01/01/19 | a213422 |
| 123421 | 01/01/19 | a213422 |
| 123421 | 01/01/19 | a213422 |
| 346345 | 01/03/19 | a213422 |
| 567868 | 01/05/19 | a346556 |
| 567868 | 01/05/19 | a346556 |
| 234534 | 01/10/19 | a678909 |
我希望能够将数据集过滤到只下了一个订单的个人,即使该订单有多个项目也是如此:
| Order_ID | Order_Date | Buyer_ID |
|----------|------------|----------|
| 567868 | 01/05/19 | a346556 |
| 567868 | 01/05/19 | a346556 |
| 234534 | 01/10/19 | a678909 |
如果我尝试df[df['Buyer_ID'].map(df['Buyer_ID'].value_counts()) == 1]
,我会遇到一个非常奇怪的情况,即结果数据帧只是Order_ID
和Buyer_ID
之间存在1对1关系的行。像这样:
| Order_ID | Order_Date | Buyer_ID |
|----------|------------|----------|
| 346345 | 01/03/19 | a213422 |
| 234534 | 01/10/19 | a678909 |
在我想要的结果中,Buyer_ID
a213422
根本不会出现,因为那个人有多个Order_ID
。
这使我相信value_counts()
不是执行此过滤器的适当方法,或者我做错了。什么是执行此过滤器的合适方法?
答案 0 :(得分:4)
方法1:使用groupby.transform
的布尔索引
df[df.groupby('Buyer_ID')['Order_ID'].transform('nunique').eq(1)]
方法2:Groupby.filter
df.groupby('Buyer_ID').filter(lambda x: x['Order_ID'].nunique()==1)
方法3:boolean indexing
与Series.map
df[df['Buyer_ID'].map(df.groupby('Buyer_ID')['Order_ID'].nunique().eq(1))]
输出
Order_ID Order_Date Buyer_ID
4 567868 01/05/19 a346556
5 567868 01/05/19 a346556
6 234534 01/10/19 a678909
如果要删除重复项,请在末尾使用DataFrame.drop_duplicates
:
df[df.groupby('Buyer_ID')['Order_ID'].transform('nunique').eq(1)].drop_duplicates()
Order_ID Order_Date Buyer_ID
4 567868 01/05/19 a346556
6 234534 01/10/19 a678909
答案 1 :(得分:0)
这是您可以使用的另一种方法:
import pandas as pd
# | Order_ID | Order_Date | Buyer_ID |
# |----------|------------|----------|
# | 123421 | 01/01/19 | a213422 |
# | 123421 | 01/01/19 | a213422 |
# | 123421 | 01/01/19 | a213422 |
# | 346345 | 01/03/19 | a213422 |
# | 567868 | 01/05/19 | a346556 |
# | 567868 | 01/05/19 | a346556 |
# | 234534 | 01/10/19 | a678909 |
df = pd.DataFrame.from_dict({
"Order_ID": [123421, 123421, 123421, 346345, 567868, 567868, 234534],
"Order_Date": ["01/01/19", "01/01/19", "01/01/19", "01/03/19", "01/05/19", "01/05/19", "01/10/19"],
"Buyer_ID": ["a213422", "a213422", "a213422", "a213422", "a346556", "a346556", "a678909"],
})
buyers_with_one_order = df.groupby(["Buyer_ID"]) \
.agg(num_orders=("Order_ID", pd.Series.nunique)) \
.query("num_orders == 1") \
.reset_index() \
.Buyer_ID
filtered_df = df.merge(buyers_with_one_order).drop_duplicates()
print(filtered_df.to_string(index=False))
# | Order_ID | Order_Date | Buyer_ID |
# |----------|------------|----------|
# | 567868 | 01/05/19 | a346556 |
# | 234534 | 01/10/19 | a678909 |