Question

我正在尝试使用库（＆＃39; RecordLinkage＆＃39;）和compare.dedup（）函数来替换单个列中的重复值。

与此post类似，我有一个向量

tv3 = c("TOURDEFRANCE", 'TOURDEFRANCE', "TOURDE FRANCE", "TOURDE FRANZ", "GET FRESH")

根据设定的权重值（例如＆gt; 0.8），我想要的输出如下：

("TOURDEFRANCE", 'TOURDEFRANCE', "TOURDEFRANCE", "TOURDEFRANCE", "GET FRESH")

这是我尝试获取匹配数据帧的代码：

tv3 = as.data.frame(c("TOURDEFRANCE", 'TOURDEFRANCE', "TOURDE FRANCE", 
                  "TOURDE FRANZ", "GET FRESH"))
colnames(tv3) <- "name"
tv3 %>% compare.dedup(strcmp = TRUE) %>%
    epiWeights() %>%
    epiClassify(0.8) %>%
    getPairs(show = "links", single.rows = TRUE) -> matches

然而，为了得到我需要的东西，我使用了下面的循环：

matches <- matches[order(matches$id1),] 
tv3new <- tv3
for (i in 1:nrow(matches)) {
  tv3new[tv3new$name==matches[i,'name.2'],] <- matches[i,'name.1']
} 
tv3new

这给了我想要的东西，但是想知道使用循环是否是最好的方法，或者我是否遗漏了一些明显的东西。

Answer 1

没有循环：

$handle = fopen('pdfsPatientInformation_1446467593.pdf', 'r');
$myfile = fgets($handle);

$docParams = array('doctor' => 7891,'patient' => 58001561,'description' =>'Patient Medical History Form','date' => '2015-02-11','document' => $myfile);

输出：

tv3new <- c(as.character(matches[tv3$name %in% matches$name.2*1, 2]), 
          as.character(tv3[!tv3$name %in% matches$name.2, ]))
# If we need a data frame
data.frame(name = tv3new)

使用模糊匹配替换dataframe列中的重复值

1 个答案: