我正在学习如何使用梦幻般的enlive库来进行网络抓取。我需要捕获一些可能部分突出显示的文本。例如,html可能如下所示:
<a href="example.com" class="usefulLink"><font color="#CC0000">Foo</font> <font color="#CC0000">Bar</font> <font color="#CC0000">Baz</font> <font color="#CC0000">Blah</font>rest of text</a>
使用时的结果(选择页面[:a.usefulLink])是很多{:tag :font :attrs {...} :content {...}}
我的问题是:有没有一种简单的方法可以剔除内容:没有其他不必要的东西,或者我是否需要自己做?
答案 0 :(得分:7)
您可以使用unwrap
。
(-> page
(select [:a.usefulLink])
(at [:font] unwrap))