从某个页面获取所有请求的网址

时间:2018-07-28 10:35:17

标签: java c# url request connection

我想编写一个程序来打开页面上的连接,例如“ https://en.wikipedia.org”,并将获得由“ https://en.wikipedia.org”页面启动的所有请求的URL,以便从服务器加载内容。

我的意思是,当您打开chrome开发工具-> network时,可以看到当前页面发起的所有网络请求,以从服务器加载内容,我可以在Java或C#程序中获取此请求吗?以及如何?

我看起来有些像“ jsoap”的工具,但它们似乎都只能用于源代码解析。

1 个答案:

答案 0 :(得分:0)

首先,您必须解析从服务器获取的整个html文件。 例如,如果您请求https://en.wikipedia.org/wiki/Main_Page,则应从HTML文件中提取以下元素:

  • <a ... </a>-标记内所有引用的HTML站点
  • <meta-标签内的所有图标
  • 所有样式表和脚本都包括文件的顶部和底部

最后,您从https://en.wikipedia.org/wiki/Main_Page网站获得了所有引用,尽管如此,您也可以将此机制视为URL-Tree Walker。

如果您对实施有任何疑问,请问我,因为我在上一个学生项目中也做了类似的实施。