R比较两个变量以避免重复

时间:2016-10-17 11:14:44

标签: r variables dataframe

我有这个数据框

`> str(AMComp)
'data.frame':   1300697 obs. of  8 variables:
 $ Commodity.Code       : chr  "H0-842481" "H0-842481" "H0-842481" "H0-842481" ...
 $ Commodity.Description: chr  "Agricultural sprays and powder dispersers" "Agricultural sprays and powder dispersers" "Agricultural sprays and powder dispersers" "Agricultural sprays and powder dispersers" ...
 $ Period               : int  1988 1988 1988 1988 1988 1988 1988 1988 1988 1988 ...
 $ Reporter             : chr  "Australia" "Australia" "Australia" "Australia" ...
 $ Partner              : chr  "Areas, nes" "Argentina" "Austria" "Brazil" ...
 $ Value.Import         : num  156 NA 425739 16623 6930 ...
 $ Value.Export         : num  NA 3025 NA NA 70355 ...
 $ Trade.Difference     : num  NA NA NA NA -63425 ...`

我注意到变量Reporter和变量Partner中存在一些不一致。例如,一些Reporter声称已将东西导入或导出。

现在,我必须摆脱那些不一致的地方。应标记变量Reporter和变量Partner重合的所有情况,以便最终删除这些观察结果。

1 个答案:

答案 0 :(得分:1)

当Reporter等于Partner时,您可以创建一个简单的标志,否则为0;

AMComp$flag <- ifelse(AMComp$Reporter == AMComp$Partner, 1,0)

如果你想消除有问题的条目,你可以简单地做:

AMComp_clean <- AMComp[AMComp$flag == 0,]

AMComp_clean是新清理的数据框。