请问,有谁能帮到我吗,我是数据挖掘的新手,我正在寻找一种方法来添加BaltimoreWashington和Baltimore-Washington(包括其价值),并使其统一,并使Denver成为一个整体并添加其所有要素。值合二为一(数据清理) 请,请参阅下面的数据以更好地理解。
df3=pd.read_sql_query('select * from avocado', con=engine)
df3["region"].value_counts()
Tampa 169
Northeast 169
Sacramento 169
NewYork 169
Plains 169
Jacksonville 169
Orlando 169
Boston 169
Portland 169
Nashville 169
StLouis 169
LasVegas 169
DallasFtWorth 169
SanDiego 169
Midsouth 169
BuffaloRochester 169
RichmondNorfolk 169
TotalUS 169
NorthernNewEngland 169
Albany 169
Chicago 169
Seattle 169
Spokane 169
SouthCentral 169
West 169
Southeast 169
GreatLakes 169
Atlanta 169
Detroit 169
Houston 169
SouthCarolina 169
CincinnatiDayton 169
LosAngeles 169
Syracuse 169
GrandRapids 169
Philadelphia 169
PhoenixTucson 169
HartfordSpringfield 169
HarrisburgScranton 169
California 169
Indianapolis 169
Boise 169
MiamiFtLauderdale 169
RaleighGreensboro 169
Louisville 169
Charlotte 169
Pittsburgh 169
SanFrancisco 169
Columbus 169
Roanoke 169
NewOrleansMobile 169
WestTexNewMexico 167
Denver 100
BaltimoreWashington 89
Baltimore-Washington 80
Denver 50
Denver 19
Name: region, dtype: int64
答案 0 :(得分:0)
您需要了解您的数据格式。您的城市基本上是用字符串表示的类别,因此value_counts()再次基于字符串表示法来计算每个类别的人口。
因此,您至少有两个选项可以合并类别。 首先,您可以更改已发布类别的字符串表示形式。对于华盛顿,基本上将“-”替换为“”,对于丹佛,基本上将“”替换为“”。
或者,您也可以在数据集市中找到类别的其他表示形式,这些类别对错别字不太敏感,例如封闭的数字类别。这一切都与数据质量有关,如果确实为每个表示形式划分了拆分类别,则可以解析数据。
希望有帮助。