消耗懒惰的http请求

时间:2013-04-13 10:15:55

标签: http clojure lazy-evaluation side-effects

我正在尝试丰富数据,我可以使用的界面是一个Web表单。 由于远程端的数据质量非常差,我会进行一系列不同的搜索,直到得到匹配为止。有时我会在第一次请求时受到打击,有时即使我尝试了5次不同的搜索,我也找不到任何东西。

我认为我可以使用Clojures懒惰来缩短第一场比赛的搜索次数,但显然由于副作用,每次都要求所有5次不同的搜索。

这是我的问题的一个非常简单的再现:

(ns lazy-web-lookup.core
  (:require [clj-http.client :as http]))

(defn found?
  "Determines if the search was successful"
  [result]
  (= (:found result) "yes"))

(first (filter #(found? %) (map #(hash-map :no %
                                           :found (:body (http/get "http://localhost/random"))) [1 2 3 4 5])))

http://localhost/random随机返回字符串“yes”或“no”。

无论如何,我可以调整以上内容来做我想做的事情,还是我咆哮错误的树?

3 个答案:

答案 0 :(得分:4)

实际上只有 chunked seqs分批实现(通常是 1 )32个元素。非分块seqs一次实现一个。像mapfilter这样的函数保留了seq参数的分块/非分块“模式”。

因此,如果您确保将非分块序列传递给它们,您可以使用常规Clojure序列函数而不会损害任何数量的懒惰。这里有两种可能的方法,第二种方法可能更适用于您的情况:

  1. 制作你的seq而不管它是否会被分块;然后,如果碰巧被分块,请将其包装成“unchunking seq”:

    (defn unchunk [xs]
      (lazy-seq
        (if-let [xs (seq xs)]
          (cons (first xs) (unchunk (rest xs))))))
    
    user=> (->> (range 40) (unchunk) (map #(println "THIS IS" %)) first)
    THIS IS 0
    
    user=> (->> (range 40) (map #(println "THIS IS" %)) first)
    THIS IS 0
    THIS IS 1
    THIS IS 2
    ...
    

    要将此方法与问题文本中的示例一起使用,您必须将矢量[1 2 3 4 5]上的seq取消分组。

  2. 以某种方式生成您的初始seq(转换管道中最里面的seq),这种情况不会使输出变为大块。这可能涉及明确地编写自己的生产者:

    (defn my-seq-producer [& args]
      (lazy-seq
        (if ...
          (cons (foo) (my-seq-producer ...))))
    

    这里要注意的关键是你要在cons条件内包装lazy-seq来电。如果不满足条件中的测试,条件将产生nil并且懒惰的seq在被实现时将变为空;否则(foo)将作为输出的第一个元素产生,然后是“休息”序列的一部分,没有任何分块。

    特别是,如果您编写自己的生成器,通过HTTP获取一个懒的seq项目,您将能够使用核心序列函数对其进行转换,同时保留完全的懒惰。

  3. 告诉哪个seq被分块而哪个不是最简单的方法是使用chunked-seq?函数,尽管有两点需要注意:

    1. 你应该对你感兴趣的seq上调用chunked-seq?的结果使用seq,而不是原来的seq本身。这是因为你的seq可能是一个包含在LazySeq对象中的chunked-seq-thunk。事实上,range就是这种情况。

      (chunked-seq? (range 40))
      ;= false
      
      (chunked-seq? (seq (range 40)))
      ;= true
      
    2. seq可以部分分块;例如,你可以cons在chunked seq的前面放置一些东西,从而产生一个seq,它不会被分块,但仍然有一个分块的“休息”。明确的unchunking很愉快地解决了这个问题,因为它并没有真正检查底层seq是否被分块。


    3. 1 考虑一个seq,它的尾部长度小于32个元素。

答案 1 :(得分:2)

正如其他答案中所提到的,延迟序列是以批处理模式实现的,批处理大小为32,对于您的特定问题,您可以使用普通的旧递归:

(loop [i [1 2 3 4 5]]
  (when (seq i)
    (let [body (-> (http/get "http://localhost/random")
                   :body)]
      (if (= body "yes")
        body
        (recur (rest i))))))

答案 2 :(得分:1)

出于效率原因,一次评估32个元素的延迟序列。试试这个:

> (defn f [i] (= i 2))
#'sandbox10079/f
> (defn g [i] (println "THIS IS" i) i))
#'sandbox10079/g
> (defn h [x] (first (filter f (map g x))))
#'sandbox10079/h
> (h (range 40))
THIS IS 0
THIS IS 1
THIS IS 2
THIS IS 3
THIS IS 4
THIS IS 5
  ...
THIS IS 28
THIS IS 29
THIS IS 30
THIS IS 31
2
>