Question

我正在将"zxcvbn" password strength algorithm从JavaScript转换为Scala。我正在寻找一种纯函数算法来查找字符串中重复字符的序列。

我知道我可以从JavaScript翻译命令式版本，但我希望尽可能保持副作用免费，因为通常会给出函数式编程的所有原因。

算法可以是Scala，Clojure，Haskell，F＃，甚至是伪代码。

感谢。

Answer 1

使用Haskell的标准高阶函数：

Data.List.group在列表中查找相同元素的运行：

> group "abccccdefffg"
["a","b","cccc","d","e","fff","g"]

我们关心这些运行的长度，而不是元素本身：

> let ls = map length $ group "abccccdefffg"
> ls
[1,1,4,1,1,3,1]

接下来，我们需要每个小组的起始位置。这只是组长度的部分总和，我们可以使用scanl计算：
```
> scanl (+) 0 ls
[0,1,2,6,7,8,11,12]
```
压缩这两个列表为我们提供了所有起始位置对和相应的长度：
```
> zip (scanl (+) 0 ls) ls
[(0,1),(1,1),(2,4),(6,1),(7,1),(8,3),(11,1)]
```

最后，我们删除长度小于3的组。

> filter ((>= 3) . snd) $ zip (scanl (+) 0 ls) ls
[(2,4),(8,3)]

把它们放在一起：

import Data.List (group)

findRuns :: Eq a => [a] -> [(Int, Int)]
findRuns xs = filter ((>= 3) . snd) $ zip (scanl (+) 0 ls) ls 
  where ls = map length $ group xs

Answer 2

这是另一个Scala解决方案

def findRuns(password: String): List[(Int, Int)] = {
  val zipped = password.zipWithIndex
  val grouped = zipped groupBy { case (c, i) => c }
  val filtered = grouped.toList.filter{ case (c, xs) => xs.length >= 3 }
  val mapped = filtered map { case (c, xs) => xs }
  val result = mapped map (xs => (xs.head._2, xs.length))
  result.sorted
}

Answer 3

Clojure的hammar算法版本

 (defn find-runs [s]
    (let [ls (map count (partition-by identity s))]
        (filter #(>= (% 1) 3) 
                (map vector (reductions + 0 ls) ls))))

Answer 4

这是我提出的Scala解决方案：

def repeatMatch(password: String): List[(Int, Int)] = {
  val length = password.length

  @tailrec
  def loop(offset: Int,
           result: List[(Int, Int)]): List[(Int, Int)] = {
    if (offset >= length) result.reverse
    else {
      val candidate = password.charAt(offset)
      val run = password.substring(offset).zip(Array.fill(length)(candidate)).
        takeWhile{case (first, second) => first == second}.length
      if (run > 2) loop(offset + run, (offset, run) :: result)
      else loop(offset + 1, result)
    }
  }

  loop(0, List.empty[(Int, Int)])
}

对于测试用例repeatMatch("abccccdefffg")，结果为List((2,4), (8,3))

也许可以改进run的计算。

用于查找重复字符的函数编程算法

4 个答案: