基于开始/结束HTML元素从URL进行Web抓取

时间:2013-10-21 18:25:48

标签: xml web-scraping

我想知道是否有软件(OSX或Win),您可以通过在DOM中指定开始/结束标记并仅在它们之间抓取HTML来抓取网站内容?理想情况下,将所述内容导出为XML或CSV?

1 个答案:

答案 0 :(得分:1)

我的Xidel可以做类似的事情。例如。您可以在ID为foobar的div之间获取所有div:

<div id="foo"/>
<div>{.}</div>*
<div id="bar"/>

它使用模式匹配,因此您可以拥有任意多个具有任意复杂度的开始/结束元素