用于处理由邻居列表函数定义的(可能是无限的)图形的库

时间:2016-08-20 21:58:17

标签: algorithm haskell graph

这是我在各种编程语言中无数次使用过的模式:

  1. 遇到一个可以轻松简化为某种图算法的问题。
  2. 定义邻接函数:outEdges :: MyNode -> [MyNode]
  3. 对所述图算法的一些通用形式进行编码,该算法将此函数作为其第一个参数。
  4. 作为示例,请考虑使用此(有目的效率低下)方法来计算两个单词之间的编辑距离。我们将计算通过广度优先搜索将一个单词转换为另一个单词所需的最少插入和删除次数。

    import Data.List
    import Data.Maybe
    
    alphabet :: String
    alphabet = ['a'..'z']
    
    wordNeighbors :: String -> [String]
    wordNeighbors word = deletions ++ insertions where
        insertions = [pre++[c]++suf | (pre,suf) <- splits, c <- alphabet]
        deletions =  [pre++suf      | (pre,_:suf) <- take (length word) splits]
    
        splits = zip (inits word) (tails word)
    
    shortestDistance :: (Eq a,Hashable a)=> (a -> [a]) -> a -> a -> Maybe Int
    shortestDistance edgeFunc source target =
        -- 8 lines of code where I do a breadth-first traversal,
        -- using a HashSet to track previously visited nodes;
        -- yawn...
    
    editDistance :: String -> String -> Int
    editDistance a b = fromJust $ shortestDistance wordNeighbors a b
    
    main = print $ editDistance "cat" "can"  -- prints 2
    

    问题是,我对第3步感到非常厌倦。(请参阅上面的shortestDistance ...)

    我觉得我已经写了数百次相同的算法。我很喜欢它,如果我能以某种方式利用FGL或Data.Graph并完成它,但到目前为止正如我所知,两者最终都需要构建某种Graph数据结构,这种数据结构对所有节点的集合都是严格的。这是一个问题,因为在许多问题中,图形是无限的(例如上面的示例中)。

    我特别询问Haskell,因为Haskell对组合器有如此强烈的关注,我以某种方式预期其中许多算法已经存在于某个地方。

    附录:以下是我经常写的除最短路径之外的其他功能示例:

    -- Useful for organizing the computation of a recursively-defined
    -- property of the nodes in an acyclic graph, such as nimbers.
    dfsPostOrder :: (v -> [v]) -> v -> [v]
    dfsPostOrder adjFunc root = ...
    
    -- Find all nodes connected in some manner to the root node.
    -- In case I know the components are finite size, but am not sure
    -- of a nice way to express their contents.
    -- (Note: The API below is only good for undirected graphs)
    getComponent :: (v -> [v]) -> v -> Set v
    getComponent adjFunc root = ...
    
    -- Lazily organize the graph into groups by their minimum distance
    -- to any of the nodes in @roots@.
    -- One could use this to help incrementalize parts of e.g. a Game
    -- of Life or Kinetic Monte Carlo simulation by locating regions
    -- invalidated by changes in the state.
    groupsByProximity :: (v -> [v]) -> Set v -> [Set v]
    groupsByProximity adjFunc roots = ...
    

    TL; DR:是否有任何通用的方法来编写可能无限的,可能是循环的有向图的算法 - 例如由邻接函数定义的算法(Node -> [Node]还是Node -> [(Node, Weight)])?

1 个答案:

答案 0 :(得分:6)

我认为大多数“广度优先”搜索算法实际上都是某种"best-first" algorithm。也就是说,搜索边界位于优先级队列中 它决定了访问节点的顺序。

我找到了两个实现通用最佳优先算法的软件包:

这两个模块都有非常通用的接口 - 即您提供邻居 函数,节点间距离函数和(在A星的情况下)启发式 功能

通过适当选择启发式和距离函数,您可以映射 您搜索其中一种算法。 例如,this patent描述了使用A-star的方法 解决编辑距离问题。