使用替换功能计算熊猫数据框列

时间:2018-07-21 20:58:42

标签: python pandas dataframe calculated-columns

我正在努力计算Pandas数据框中的字段。学习Python,我正在尝试找到最佳方法。 数据框非常大,超过5500万行。它有几列,其中=importxml("http://ddp.usach.cl/node/442";"//*[@id='node-page-442']/div[1]/div/div/div/p[7]/text()") date是我感兴趣的。因此数据框如下所示:

failure

我要计算date failure 2018-09-09 0 2016-05-12 1 2013-12-12 1 2018-05-12 1 2018-05-12 1 failure_date

试过了。像这样:

(if failure = 1 then failure_date = date)

会话很长时间(1.5h)忙。到目前为止没有结果。这是正确的方法吗? 是一种基于其他条件的更有效的列计算方法吗?

2 个答案:

答案 0 :(得分:0)

此代码添加一列“ failure_date”,并将其设置为失败的失败日期。它不解决“非故障”。

abc.loc[abc['failure']==1, 'failure_date'] = abc['date']

答案 1 :(得分:0)

如果您不介意丢弃其余数据框,则可以得到所有失败为1的日期,像这样

abc = abc[abc['failure] == 1]