如何在Clojure中懒洋洋地阅读网页

时间:2010-04-13 11:42:14

标签: networking clojure lazy-evaluation

我和一位朋友最近在我的Clojure IRC机器人中实现了链接抓取。当它看到一个链接时,它会淹没页面并从页面中获取标题。问题是它必须悄悄整个页面才能获取链接。

如何在第一个</title>?

之前懒惰地阅读页面

2 个答案:

答案 0 :(得分:6)

使用line-seq但不要忘记在完成后关闭基础流。

答案 1 :(得分:6)

我不会指望HTML必须以明智的方式分成几行;不看我们自己的后院,例如Compojure(或Hiccup目前,我猜)不打扰插入换行符,我相信(更新:刚刚检查过打嗝 - 没有换行符。)

我建议的是在clojure.contrib.lazy-xml之上进行惰性XML解析(使用java.io.BufferedInputStream)。