使用iframe抓取网站

时间:2018-01-27 02:38:05

标签: html iframe web-crawler

我有一个测试项目使用支持爬网的库(openbuilding spiderling)。 问题是当我抓住网址" https://examlple.com"时。此页面包含来自" https://iframe.com"。

的iframe

我想在iframe中获取元素p(s)。但我现在只能访问iframe.com获取这些元素。我想要知道,即使我没有访问iframe.com,也可以获得元素p,例如等待ifame加载。 谢谢!

1 个答案:

答案 0 :(得分:2)

不,你不能从父页面中隐藏iframe的内容。您可以做的最接近的是记下iframe的网址,然后关闭并独立地抓住它。

iframe视为一个沙盒和保护性容器,只允许您直观地查看其内容而不是其他内容 - 没有抓取或与之交谈(除非您拥有该页面并正在使用JavaScript {{1}等等。