熊猫数据验证

时间:2020-04-06 23:25:38

标签: pandas dataframe validation

我有一个包含4列的数据框和一个具有相同4列的csv文件。数据框从数据库中提取字段,并使用一些我不理解的复杂脚本创建。无论如何,我试图对这两个对象进行一些数据验证/比较。所以我有了df_db,然后将csv转换为新的数据帧df_csv。 数据框列为[日期,标识符,值1,值2]。出于所有意图和目的,有3个唯一的日期和5个唯一的标识符,每个日期都有这5个标识符(这是我目前的情况,但是可以有任意数量的日期和标识符)。我想要的是当日期和标识符等于从两个来源获取value1时,减去2并将其存储在新数据帧的新列中。类似地,对于第2列,我执行的效率非常低下,即对2个数据帧中的给定值进行过滤,然后对日期执行内部联接,然后如上所述操作值1和2。然后,我将各个结果连接起来,然后转换回csv,这样我就可以轻松读取结果。有更简单的方法吗?我的一位同事有200多行代码,通常会崩溃,因为某些单元格具有NaN,并且当减去1个或多个NaN时,我会遇到一个例外,因此我不得不假设有一种更简单的方法。抱歉,我没有附加我的代码,但是它不太可读。

有关值

       date: 01/02/20, 01/03/20, 01/04/20; 
       identifier: Sam, Dave, Karl, Seth, Will 
       value1: Floats from 1-100
       value2: Floats from 1-100 

0 个答案:

没有答案