Question

我有一个包含3列（部门，销售，区域）的数据框，我想编写一个方法来显示来自最不常见区域的所有行。然后我需要编写另一种方法来计算在最不常见的区域中表示的部门的频率。不知道怎么做。

Answer 1

功能是不必要的 - pandas已经有实现来完成你想要的！假设我有以下csv文件，test.csv ...

department,sales,region
sales,26,midwest
finance,45,midwest
tech,69,west
finance,43,east
hr,20,east
sales,34,east

如果我理解正确，我会获得一个表示最不常见区域的DataFrame，如下所示：

import pandas as pd

df = pd.read_csv('test.csv')

counts = df['region'].value_counts()
least_common = counts[counts == counts.min()].index[0]

least_common_df = df.loc[df['region'] == least_common]

least_common_df现在是：

  department  sales region
2       tech     69   west

至于获得最不常见地区的部门频率，我会把它留给你。（我已经向您展示了如何获得区域的频率。）

用于显示具有最少公共列字符串

1 个答案: