我想抓取网页的IFrame内容(动态内容);
但截至目前,没有抓取工具(尝试使用Aperture,Crawl4j)支持此功能;我得到的结果是
<iframe id="template_content_frame" src="/ee/mypage/default.htm" width="100%" frameborder="0" name="content_frame">
</iframe>
首先是Crawljax。这是否支持抓取IFrame内容?我过来了issue;看来上面的问题是关闭不固定,所以我怀疑Crawljax支持与否;
是否有人先前尝试过此操作/有任何新的解决方案来抓取动态内容,例如IFrame ?
答案 0 :(得分:1)
Norconex HTTP Collector是一款开源企业网络抓取工具,支持即时抓取frame
和iframe
代码。您还可以添加自己的一组标记,用于提取网址(例如frame.longdesc
,video.src
,form.action
等。您无需编程技能即可使用此爬虫,但由于您似乎了解Java,因此如果您愿意,还可以插入自己的URL提取逻辑。
一旦您更熟悉此抓取工具,我建议您在在线javadoc上查找HtmlLinkExtractor课程,以获取更多网址提取选项。