标签: xml web-scraping
我想知道是否有软件(OSX或Win),您可以通过在DOM中指定开始/结束标记并仅在它们之间抓取HTML来抓取网站内容?理想情况下,将所述内容导出为XML或CSV?
答案 0 :(得分:1)
我的Xidel可以做类似的事情。例如。您可以在ID为foo和bar的div之间获取所有div:
foo
bar
<div id="foo"/> <div>{.}</div>* <div id="bar"/>
它使用模式匹配,因此您可以拥有任意多个具有任意复杂度的开始/结束元素