Question

披露：这出现在FsCheck中，这是我维护的F＃随机测试框架。我有一个解决方案，但我不喜欢它。而且，我不明白这个问题 - 它只是被规避了。

一个标准的实现（monadic，如果我们要使用大词）序列是：

let sequence l = 
    let k m m' = gen { let! x = m
                       let! xs = m'
                       return (x::xs) }
    List.foldBack k l (gen { return [] })

gen可以由选择的计算构建器替换。不幸的是，该实现消耗了堆栈空间，因此如果列表足够长，最终会堆栈溢出。问题是：为什么？我原则上知道foldBack不是尾递归，但F＃团队聪明的兔子已经在foldBack实现中绕过了它。计算构建器实现中是否存在问题？

如果我将实现更改为以下内容，一切都很好：

let sequence l =
    let rec go gs acc size r0 = 
        match gs with
        | [] -> List.rev acc
        | (Gen g)::gs' ->
            let r1,r2 = split r0
            let y = g size r1
            go gs' (y::acc) size r2
    Gen(fun n r -> go l [] n r)

为完整起见，可以找到Gen类型和计算构建器in the FsCheck source

Answer 1

在Tomas的回答基础上，让我们定义两个模块：

module Kurt = 
    type Gen<'a> = Gen of (int -> 'a)

    let unit x = Gen (fun _ -> x)

    let bind k (Gen m) =     
        Gen (fun n ->       
            let (Gen m') = k (m n)       
            m' n)

    type GenBuilder() =
        member x.Return(v) = unit v
        member x.Bind(v,f) = bind f v

    let gen = GenBuilder()


module Tomas =
    type Gen<'a> = Gen of (int -> ('a -> unit) -> unit)

    let unit x = Gen (fun _ f -> f x)

    let bind k (Gen m) =     
        Gen (fun n f ->       
            m n (fun r ->         
                let (Gen m') = k r        
                m' n f))

    type GenBuilder() =
        member x.Return v = unit v
        member x.Bind(v,f) = bind f v

    let gen = GenBuilder()

为了简化一些事情，让我们将原始序列函数重写为

let rec sequence = function
| [] -> gen { return [] }
| m::ms -> gen {
    let! x = m
    let! xs = sequence ms
    return x::xs }

现在，sequence [for i in 1 .. 100000 -> unit i]将完成，无论sequence或Kurt.gen是否定义Tomas.gen。问题不在于sequence在使用定义时导致堆栈溢出，而是调用<{1}}时返回的函数在调用 it 时导致堆栈溢出。 / p>

要了解为什么会这样，让我们根据潜在的monadic操作扩展sequence的定义：

sequence

内联let rec sequence = function | [] -> unit [] | m::ms -> bind (fun x -> bind (fun xs -> unit (x::xs)) (sequence ms)) m和Kurt.unit值并简化为疯狂，我们得到

Kurt.bind

现在有希望清楚为什么调用let rec sequence = function | [] -> Kurt.Gen(fun _ -> []) | (Kurt.Gen m)::ms -> Kurt.Gen(fun n -> let (Kurt.Gen ms') = sequence ms (m n)::(ms' n))溢出堆栈：let (Kurt.Gen f) = sequence [for i in 1 .. 1000000 -> unit i] in f 0需要对结果函数进行序列化和求值的非尾递归调用，因此每个递归都会有一个堆栈帧调用

将f和Tomas.unit内联到Tomas.bind的定义中，我们得到以下简化版本：

sequence

关于这种变体的推理是棘手的。您可以凭经验验证它不会为一些任意大的输入吹嘘堆栈（正如Tomas在他的回答中所示），并且您可以逐步完成评估以使自己相信这一事实。但是，堆栈消耗取决于传入的列表中的let rec sequence = function | [] -> Tomas.Gen (fun _ f -> f []) | (Tomas.Gen m)::ms -> Tomas.Gen(fun n f -> m n (fun r -> let (Tomas.Gen ms') = sequence ms ms' n (fun rs -> f (r::rs))))实例，并且可能会使堆栈无法自行递归的输入：

Gen

Answer 2

你是对的 - 你得到堆栈溢出的原因是monad的bind操作需要是尾递归的（因为它用于在折叠期间聚合值）。

FsCheck中使用的monad本质上是一个状态monad（它保留当前的生成器和一些数字）。我简化了一下，得到了类似的东西：

type Gen<'a> = Gen of (int -> 'a)

let unit x = Gen (fun n -> x)

let bind k (Gen m) = 
    Gen (fun n -> 
      let (Gen m') = k (m n) 
      m' n)

这里，bind函数不是尾递归函数，因为它调用k然后再做一些工作。您可以将monad更改为 continuation monad 。它被实现为一个函数，它接受状态和 continuation - 一个以结果作为参数调用的函数。对于这个monad，你可以使bind尾递归：

type Gen<'a> = Gen of (int -> ('a -> unit) -> unit)

let unit x = Gen (fun n f -> f x)

let bind k (Gen m) = 
    Gen (fun n f -> 
      m n (fun r -> 
        let (Gen m') = k r
        m' n f))

以下示例不会堆栈溢出（并且它与原始实现一样）：

let sequence l = 
  let k m m' = 
    m |> bind (fun x ->
      m' |> bind (fun xs -> 
        unit (x::xs)))
  List.foldBack k l (unit [])

let (Gen f) = sequence [ for i in 1 .. 100000 -> unit i ]
f 0 (fun list -> printfn "%d" list.Length)

为什么这个F＃序列函数不是尾递归的？

2 个答案: