我正在为第三方项目。我正在利用人口普查数据来支持自己的数据,以帮助获得更好的见解。我仍处于数据木工阶段,遇到了障碍。我知道如何在R中执行以下操作,但是由于我以后想运行一些机器学习包,因此必须使用python3。我的主要数据框(cleankc_zip
)是9列乘9,062行,而zipcode
是我要定位到子集的列。
我有一个邮政编码列表,我想像在R中那样“细分”我的数据。
我有一个这样设置的列表n
:n = [int641, int642,...int64n]
我尝试创建一个列表,并使用.loc
和.iloc
来解析数据,如下所示:zip_ksmo=cleankc_zip.loc[cleankc_zip['zipcode'] == n]
其中zip_ksmo是我要存储新变量的变量中的数据和cleankc_zip是我要子集的数据。如上所述,N是我的邮政编码列表。
运行代码时,出现以下错误:ValueError: Lengths must match to compare
。
基本上,我只想对cleankc_zip进行子集化,以仅包含列表n
中包含的邮政编码。我不太精通python,遇到了障碍。
顺便提一下,一旦我经过这里,我会很高兴的。