我和一位朋友最近在我的Clojure IRC机器人中实现了链接抓取。当它看到一个链接时,它会淹没页面并从页面中获取标题。问题是它必须悄悄整个页面才能获取链接。
如何在第一个</title>?
答案 0 :(得分:6)
使用line-seq
但不要忘记在完成后关闭基础流。
答案 1 :(得分:6)
我不会指望HTML必须以明智的方式分成几行;不看我们自己的后院,例如Compojure(或Hiccup目前,我猜)不打扰插入换行符,我相信(更新:刚刚检查过打嗝 - 没有换行符。)
我建议的是在clojure.contrib.lazy-xml
之上进行惰性XML解析(使用java.io.BufferedInputStream
)。