获取用于制作网络爬虫的页面的完整html源代码

时间:2015-10-14 11:06:02

标签: java web-crawler jsoup

我试图在java中创建一个网页抓取工具,该网页抓取网页的网址并导航到给定网页的源代码中存在的其他网页。问题是,我在jsoup的帮助下获得HTML的源代码,jsoup包含各种标签,如框架和一些javascript文件名。现在导航到我需要访问框架和javascript文件中给出的http链接的其他页面。我该如何在列表中获取这些链接。

1 个答案:

答案 0 :(得分:1)

你需要递归地做...在DOM对象中找到一个帧标记/元素,时间来获取其“src”属性的DOM,继续这样做,将你在后续获取中找到的所有链接存储到一个阵列。
您可以使用新线程来获取帧DOM。只是为了让整个过程更快一些。