Ruby Regex连续独特的字符

时间:2016-05-21 07:05:59

标签: ruby regex backreference

给出字符串

  

aabbaacceeeeeaa

我正在尝试设计一个正则表达式,它将捕获包含任意数量的三个唯一字符的子字符串。

/[(\w)\1+]/ or /[(\w)(?!\1)]/

我尝试过像

这样的东西
extension=php_curl.dll

我知道那些不完整。我不确定我是否在正确的轨道上。

但我不确定如何排除已匹配的字符,或者至少我似乎无法使用?!正常。

2 个答案:

答案 0 :(得分:3)

最好的正则表达式,但如果您需要备份计划,....

def pull_subs(str, n)
  arr = str.chars
  (n..str.size).each_with_object([]) { |i,a| arr.each_cons(i) { |b|
    a << b.join if b.uniq.size == n } }
end

str = "aabbaacceeeeeaa"

pull_subs(str, 3)
  #=> ["baac", "acce", "bbaac", "baacc", "aacce", "accee", "abbaac", "bbaacc",
  #    "aaccee", "acceee", "aabbaac", "abbaacc", "aacceee", "acceeee", "ceeeeea",
  #    "aabbaacc", "aacceeee", "acceeeee", "cceeeeea", "ceeeeeaa", "aacceeeee",
  #    "acceeeeea", "cceeeeeaa", "aacceeeeea", "acceeeeeaa", "aacceeeeeaa"] 
pull_subs(str, 2)
  #=> ["ab", "ba", "ac", "ce", "ea", "aab", "abb", "bba", "baa", "aac", "acc",
  #    "cce", "cee", "eea", "eaa", "aabb", "abba", "bbaa", "aacc", "ccee",
  #    "ceee", "eeea", "eeaa", "aabba", "abbaa", "cceee", "ceeee", "eeeea", 
  #    "eeeaa", "aabbaa", "cceeee", "ceeeee", "eeeeea", "eeeeaa", "cceeeee", 
  #    "eeeeeaa"] 
pull_subs(str, 4)
  #=> ["baacce", "bbaacce", "baaccee", "abbaacce", "bbaaccee", "baacceee", 
  #    "aabbaacce", "abbaaccee", "bbaacceee", "baacceeee", "aabbaaccee", 
  #    "abbaacceee", "bbaacceeee", "baacceeeee", "aabbaacceee", "abbaacceeee",
  #    "bbaacceeeee", "baacceeeeea", "aabbaacceeee", "abbaacceeeee",
  #    "bbaacceeeeea", "baacceeeeeaa", "aabbaacceeeee", "abbaacceeeeea", 
  #    "bbaacceeeeeaa", "aabbaacceeeeea", "abbaacceeeeeaa", "aabbaacceeeeeaa"] 

答案 1 :(得分:3)

使用scan是不可能的,因为预期的子串会重叠。最好的方法是使用索引。

使用正则表达式排除在连续相同字母中间开始的匹配很困难。

s = "aabbaacceeeeeaa"

(1..s.length).map do
  |i|
  (s[i] != s[i + 1] || nil) &&
  /(.)\1*+(.)(?:\1|\2)*+(.)(?:\1|\2|\3)*/.match(s, i - 1)&.[](0)
end.compact
# => ["aabbaacc", "bbaacc", "aacceeeeeaa", "cceeeeeaa"]