确定一种常见模式

时间:2016-02-13 14:36:30

标签: r string lcs

是否有(容易)识别两个字符串共享的共同模式的可能性? 这是一个清楚我的意思的小例子:

我有两个包含字符串的变量。两者都包括相同的模式(“ABC”)和一些“噪音”。

a <- "xxxxxxxxxxxABCxxxxxxxxxxxx"
b <- "yyyyyyyyyyyyyyyyyyyyyyyABC"

让我说我不知道​​常见的模式,我希望R找出两个字符串都包含“ABC”。我怎样才能做到这一点?

*修改

第一个例子可能有点简单化。这是我的真实数据的一个例子。

a <- "DUISBURG-HAMBORNS"
b <- "DUISBURG (-31.7.29)S"

两个字符串都包含“DUISBURG”,我希望该函数能够识别。

*修改

我在评论中发布的链接中提出了解决方案。但我仍然没有我想要的东西。

library(qualV)
LCS(strsplit(a[1], '')[[1]],strsplit(b[1], '')[[1]])$LCS

[1] "D" "U" "I" "S" "B" "U" "R" "G" "-" " " " " "S"

如果函数正在寻找两个向量的最长公共子序列,为什么它不会在"D" "U" "I" "S" "B" "U" "R" "G"之后停止? 。

1 个答案:

答案 0 :(得分:6)

来自LCS包的功能qualVFind common substrings between two character variables; 可能重复)除了您需要的功能之外还有其他功能。它解决了the longest common subsequence problem,其中子序列不需要占据原始序列中的连续位置。

你所拥有的是the longest common substring problem,你可以使用this算法,这里的代码假设有一个唯一的(就长度而言)最长的公共子串:

a <- "WWDUISBURG-HAMBORNS"
b <- "QQQQQQDUISBURG (-31.7.29)S"

A <- strsplit(a, "")[[1]]
B <- strsplit(b, "")[[1]]

L <- matrix(0, length(A), length(B))
ones <- which(outer(A, B, "=="), arr.ind = TRUE)
ones <- ones[order(ones[, 1]), ]
for(i in 1:nrow(ones)) {
  v <- ones[i, , drop = FALSE]
  L[v] <- ifelse(any(v == 1), 1, L[v - 1] + 1)
}
paste0(A[(-max(L) + 1):0 + which(L == max(L), arr.ind = TRUE)[1]], collapse = "")
# [1] "DUISBURG"