java - 从某个页面获取所有请求的网址

时间：2018-07-28 10:35:17

标签： java c# url request connection

我想编写一个程序来打开页面上的连接，例如“ https://en.wikipedia.org”，并将获得由“ https://en.wikipedia.org”页面启动的所有请求的URL，以便从服务器加载内容。

我的意思是，当您打开chrome开发工具-> network时，可以看到当前页面发起的所有网络请求，以从服务器加载内容，我可以在Java或C＃程序中获取此请求吗？以及如何？

我看起来有些像“ jsoap”的工具，但它们似乎都只能用于源代码解析。

答案 0 :(得分：0)

首先，您必须解析从服务器获取的整个html文件。例如，如果您请求https://en.wikipedia.org/wiki/Main_Page，则应从HTML文件中提取以下元素：

最后，您从https://en.wikipedia.org/wiki/Main_Page网站获得了所有引用，尽管如此，您也可以将此机制视为URL-Tree Walker。

如果您对实施有任何疑问，请问我，因为我在上一个学生项目中也做了类似的实施。