R数据清理挑战 - 在多列数据中查找和替换字符串匹配的最佳方法是什么?

时间:2017-06-05 21:12:50

标签: r gsub data-cleaning data-cleansing

我有一个营销数据集,每个客户都有3个参数:

  • utm_source
  • utm_medium
  • utm_campaign

数据集如下所示:

Id  utm_source  utm_medium  utm_campaign
11  internet    google+ppc  unknown
23  internet    organic home
31  internet    organic home
35  internet    google+ppc  unknown
37  internet    google+ppc  unknown

数据有这样的亲子关系:

utm_source(parent) - > utm_medium(孩子) - > utm_capaign(祖儿)

我遇到的问题是这些亲子关系中的一些已发生变化。

因此,我需要清理旧数据以匹配新的utm结构。

例如,

OLD:

Id  utm_source  utm_medium  utm_campaign
11  internet    google+ppc  unknown

Id  utm_source  utm_medium  utm_campaign
11  internet    paid    google

有没有人知道如何在R中解决这个困难的数据清理问题?

1 个答案:

答案 0 :(得分:0)

data$utm_medium <- gsub("google+ppc", "paid", data$utm_medium)
data$utm_campaign <- gsub("unknown", "google", data$utm_campaign)