使用python(pandas)进行数据挖掘(数据清理)

时间:2019-10-08 10:51:59

标签: python pandas data-cleaning

请问,有谁能帮到我吗,我是数据挖掘的新手,我正在寻找一种方法来添加BaltimoreWashington和Baltimore-Washington(包括其价值),并使其统一,并使Denver成为一个整体并添加其所有要素。值合二为一(数据清理) 请,请参阅下面的数据以更好地理解。

df3=pd.read_sql_query('select * from avocado', con=engine)
df3["region"].value_counts()
Tampa                   169
Northeast               169
Sacramento              169
NewYork                 169
Plains                  169
Jacksonville            169
Orlando                 169
Boston                  169
Portland                169
Nashville               169
StLouis                 169
LasVegas                169
DallasFtWorth           169
SanDiego                169
Midsouth                169
BuffaloRochester        169
RichmondNorfolk         169
TotalUS                 169
NorthernNewEngland      169
Albany                  169
Chicago                 169
Seattle                 169
Spokane                 169
SouthCentral            169
West                    169
Southeast               169
GreatLakes              169
Atlanta                 169
Detroit                 169
Houston                 169
SouthCarolina           169
CincinnatiDayton        169
LosAngeles              169
Syracuse                169
GrandRapids             169
Philadelphia            169
PhoenixTucson           169
HartfordSpringfield     169
HarrisburgScranton      169
California              169
Indianapolis            169
Boise                   169
MiamiFtLauderdale       169
RaleighGreensboro       169
Louisville              169
Charlotte               169
Pittsburgh              169
SanFrancisco            169
Columbus                169
Roanoke                 169
NewOrleansMobile        169
WestTexNewMexico        167
Denver                  100
BaltimoreWashington      89
Baltimore-Washington     80
 Denver                  50
 Denver                  19
Name: region, dtype: int64

1 个答案:

答案 0 :(得分:0)

您需要了解您的数据格式。您的城市基本上是用字符串表示的类别,因此value_counts()再次基于字符串表示法来计算每个类别的人口。

因此,您至少有两个选项可以合并类别。 首先,您可以更改已发布类别的字符串表示形式。对于华盛顿,基本上将“-”替换为“”,对于丹佛,基本上将“”替换为“”。

或者,您也可以在数据集市中找到类别的其他表示形式,这些类别对错别字不太敏感,例如封闭的数字类别。这一切都与数据质量有关,如果确实为每个表示形式划分了拆分类别,则可以解析数据。

希望有帮助。