使用多列标准创建变量(PANDAS)

时间:2015-03-02 15:42:35

标签: python python-2.7 pandas

我有一个名为HouseholdSize的列和一个名为Independent的列。如果HouseholdSize等于1且Independent不等于1,我想创建一个等于1的变量。我当前的代码如下所示:

        df["HH1flag"] = df.where((df.HouseholdSize ==1) & (df.Independent != 1).notnull().astype(int))
            HH1flag = df[df.HH1flag == 1]
            pd.DataFrame(HH1flag, columns=["LocIdent","HouseholdSize","Independent"]).to_csv(Targcsv, mode='ab')

我收到以下错误: AttributeError:'float'对象没有属性'all'

编辑:在EdChum的帮助下,我正在为这个问题添加更多信息。我修改过的代码的简化版本如下所示:

import pandas as pd
from pandas import *
import csv

FileName='HouseholdSizeTest.xlsx'
data=pd.read_excel(FileName,'Sheet1')
df=pd.DataFrame(data)
Targcsv=('target.csv')

HH1Text= [['Table C.1 HouseholdSize Check 1']]
with open(Targcsv,'ab') as f:
    titles=csv.writer(f)
    titles.writerow([])
    titles.writerows(HH1Text)
    titles.writerow([])

df["HH1flag"] = df[(df.HouseholdSize ==1) & (df.Independent != 1)].notnull().astype(int)
HH1flag = df[df.HH1flag == 1]
pd.DataFrame(HH1flag, columns=["LocIdent","HouseholdSize","Independent"]).to_csv(Targcsv, mode='ab')

我收到了同一行的新错误。错误是ValueError:错误的项目数量传递3,放置意味着1.我正在努力将数据正确地放入此编辑格式,但想象三种情况。第一个是Independent = 1,HouseholdSize = 1,第二个是Independent = 0和HouseholdSize = 3,第三个是Independent = 47和HouseholdSize = 1。对于第三种情况,HH1flag应该等于1.

1 个答案:

答案 0 :(得分:1)

如果您需要指标列,则可以使用np.where

df["HH1flag"] = np.where((df.HouseholdSize ==1) & (df.Independent != 1), 1, 0)

所以这使用传入的条件,如果true返回1,如果为false则返回0.

我的第一个建议不起作用的原因是因为这会返回一个包含多个列值的系列,这不是您想要的。

当你df.where时,它不喜欢尝试投射你的系列并提出AttributeError

  

AttributeError:'float'对象没有属性'all'

我不知道为什么会这样做,你的数据并没有什么特别之处,因为我能用一个简单的df来重现这个数据。