实施例
我们通过阅读csv创建了两个时间序列的懒惰地图序列。该 两个懒惰序列在不同的日子开始:
INPUT
lazy-seq1
({:date "20110515" :val1 123}
{:date "20110516" :val1 143}
{:date "20110517" :val1 1153} ...)
lazy-seq2
({:date "20110517" :val2 151}
{:date "20110518" :val2 1330} ...)
EXPECTED OUTPUT
lazy-seq3
({:date "20110515" :vals {:val1 123}}
{:date "20110516" :vals {:val1 143}}
{:date "20110517" :vals {:val1 1153 :val2 151}}
{:date "20110518" :vals {:val1 ... :val2 1330}}
...))
确切地说,类型:日期不是字符串,而是由clj-time强制的Jodatime 和:日期按每个序列排序。
第一个选择是使用分组功能,但我想这不能创建lazy-seq。我认为分组需要急切的评估。
第二个选择是使用分区依据功能,但由于缺乏封闭技能,我不能将其应用于我的INPUTS。
输入seq非常大(每个序列约1GB),我想一次计算多个(~100)序列。 所以,我想要懒惰的评估以避免Outofmemory错误。
答案 0 :(得分:3)
如果您的项目按日期排序,您可以轻松地将它们合并(如合并排序算法):
(defn merge-lazy [seq1 seq2]
(cond (empty? seq1) seq2
(empty? seq2) seq1
(< (Integer/parseInt (:date (first seq1)))
(Integer/parseInt (:date (first seq2)))) (cons (first seq1)
(lazy-seq (merge-lazy (rest seq1) seq2)))
:else (cons (first seq2) (lazy-seq (merge-lazy seq1 (rest seq2))))))
它会按日期产生一个排序的延迟序列:
user> (def seq1
'({:date "20110515" :val1 123}
{:date "20110516" :val1 143}
{:date "20110517" :val1 1153}))
#'user/seq1
user> (def seq2 '({:date "20110517" :val2 151}
{:date "20110518" :val2 1330}))
user> (merge-lazy seq1 seq2)
({:date "20110515", :val1 123} {:date "20110516", :val1 143}
{:date "20110517", :val2 151} {:date "20110517", :val1 1153}
{:date "20110518", :val2 1330})
然后你可以按日期对这个结果的懒惰seq进行分区(这也会产生一个懒惰的seq):
user> (partition-by :date (merge-lazy seq1 seq2))
(({:date "20110515", :val1 123})
({:date "20110516", :val1 143})
({:date "20110517", :val2 151} {:date "20110517", :val1 1153})
({:date "20110518", :val2 1330}))
所以接下来你要做的就是用map
如果你有更多的输入序列,你可以使用相同的策略,只需用变量args重写merge-lazy
(或reduce
重写merge-lazy
:(reduce merge-lazy sequences)
这也是产生一系列懒惰的序列'合并'