使用java抓取网页的IFrame内容

时间:2014-12-09 05:44:33

标签: java html iframe web-crawler

我想抓取网页的IFrame内容(动态内容);

但截至目前,没有抓取工具(尝试使用Aperture,Crawl4j)支持此功能;我得到的结果是


      <iframe id="template_content_frame" src="/ee/mypage/default.htm" width="100%" frameborder="0" name="content_frame">
      </iframe>

首先是Crawljax。这是否支持抓取IFrame内容?我过来了issue;看来上面的问题是关闭不固定,所以我怀疑Crawljax支持与否;

是否有人先前尝试过此操作/有任何新的解决方案来抓取动态内容,例如IFrame

1 个答案:

答案 0 :(得分:1)

Norconex HTTP Collector是一款开源企业网络抓取工具,支持即时抓取frameiframe代码。您还可以添加自己的一组标记,用于提取网址(例如frame.longdescvideo.srcform.action等。您无需编程技能即可使用此爬虫,但由于您似乎了解Java,因此如果您愿意,还可以插入自己的URL提取逻辑。

一旦您更熟悉此抓取工具,我建议您在在线javadoc上查找HtmlLinkExtractor课程,以获取更多网址提取选项。