Question

是否有（容易）识别两个字符串共享的共同模式的可能性？这是一个清楚我的意思的小例子：

我有两个包含字符串的变量。两者都包括相同的模式（“ABC”）和一些“噪音”。

a <- "xxxxxxxxxxxABCxxxxxxxxxxxx"
b <- "yyyyyyyyyyyyyyyyyyyyyyyABC"

让我说我不知道常见的模式，我希望R找出两个字符串都包含“ABC”。我怎样才能做到这一点？

*修改

第一个例子可能有点简单化。这是我的真实数据的一个例子。

a <- "DUISBURG-HAMBORNS"
b <- "DUISBURG (-31.7.29)S"

两个字符串都包含“DUISBURG”，我希望该函数能够识别。

*修改

我在评论中发布的链接中提出了解决方案。但我仍然没有我想要的东西。

library(qualV)
LCS(strsplit(a[1], '')[[1]],strsplit(b[1], '')[[1]])$LCS

[1] "D" "U" "I" "S" "B" "U" "R" "G" "-" " " " " "S"

如果函数正在寻找两个向量的最长公共子序列，为什么它不会在"D" "U" "I" "S" "B" "U" "R" "G"之后停止？。

Answer 1

来自LCS包的功能qualV（Find common substrings between two character variables; 不可能重复）除了您需要的功能之外还有其他功能。它解决了the longest common subsequence problem，其中子序列不需要占据原始序列中的连续位置。

你所拥有的是the longest common substring problem，你可以使用this算法，这里的代码假设有一个唯一的（就长度而言）最长的公共子串：

a <- "WWDUISBURG-HAMBORNS"
b <- "QQQQQQDUISBURG (-31.7.29)S"

A <- strsplit(a, "")[[1]]
B <- strsplit(b, "")[[1]]

L <- matrix(0, length(A), length(B))
ones <- which(outer(A, B, "=="), arr.ind = TRUE)
ones <- ones[order(ones[, 1]), ]
for(i in 1:nrow(ones)) {
  v <- ones[i, , drop = FALSE]
  L[v] <- ifelse(any(v == 1), 1, L[v - 1] + 1)
}
paste0(A[(-max(L) + 1):0 + which(L == max(L), arr.ind = TRUE)[1]], collapse = "")
# [1] "DUISBURG"

确定一种常见模式

1 个答案: