Question

我想知道是否有软件（OSX或Win），您可以通过在DOM中指定开始/结束标记并仅在它们之间抓取HTML来抓取网站内容？理想情况下，将所述内容导出为XML或CSV？

Answer 1

我的Xidel可以做类似的事情。例如。您可以在ID为foo和bar的div之间获取所有div：

<div id="foo"/>
<div>{.}</div>*
<div id="bar"/>

它使用模式匹配，因此您可以拥有任意多个具有任意复杂度的开始/结束元素