如何用木偶抓取<html> ... </html>到另一个<html> ... </html>

时间:2019-12-08 18:03:24

标签: javascript html node.js puppeteer

好的,因此我要使用node.js puppeteer抓取的页面的结构如下

    <html lang = "en">
    ....
       <html xmlns="https://www.w3.org/1999/xhtml" lang="en">
            <a href = "link I'm trying to go to">Go to link</a>
       </html>
    </html>

我试图通过选择器和XPath单击。两者都不起作用,我三重检查了两者都是正确的。我觉得它与此嵌入式html有关,并且我不知道该如何处理?有人可以帮忙吗?

1 个答案:

答案 0 :(得分:0)

其他评论指出,无法从父文档访问iframe中的内容。我再次检查了代码,发现它实际上是这样构造的:

<html lang = "en">
....
   <iframe src = "url">
       <html xmlns="https://www.w3.org/1999/xhtml" lang="en">
           <a href = "link I'm trying to go to">Go to link</a>
       </html>
   </iframe>
</html>

所以我要做的就是page.goto(url),然后像往常一样抓取。谢谢大家!