具有阴影根标记的站点的webspider

时间:2016-09-21 21:30:05

标签: web-crawler tornado etl shadow-dom

How to adapt this web spider 
to search the pages
 on sites that contain shadow-root tag ?

位点:

http://www.cpasparks.com/

http://www.highrockaccounting.com/

http://www.steelecpas.com/

http://www.superiorlinenlv.com/

龙卷风webspider: https://github.com/tornadoweb/tornado/blob/master/demos/webspider/webspider.py https://raw.githubusercontent.com/tornadoweb/tornado/stable/demos/webspider/webspider.py

除了他们之外,它几乎适用于所有网站。

您知道更好的解决方案吗?

1 个答案:

答案 0 :(得分:0)

如果Shadow DOM处于 open 模式,则可以通过shadowRoot属性检查其DOM树:

console.log( anElement.shadowRoot )  //display the shadow DOM

您还可以使用<slot>元素上的getInsertedNodes()来访问已插入的节点。