我想编写一个程序来打开页面上的连接,例如“ https://en.wikipedia.org”,并将获得由“ https://en.wikipedia.org”页面启动的所有请求的URL,以便从服务器加载内容。
我的意思是,当您打开chrome开发工具-> network时,可以看到当前页面发起的所有网络请求,以从服务器加载内容,我可以在Java或C#程序中获取此请求吗?以及如何?
我看起来有些像“ jsoap”的工具,但它们似乎都只能用于源代码解析。
答案 0 :(得分:0)
首先,您必须解析从服务器获取的整个html文件。
例如,如果您请求https://en.wikipedia.org/wiki/Main_Page
,则应从HTML文件中提取以下元素:
<a ... </a>
-标记内所有引用的HTML站点<meta
-标签内的所有图标最后,您从https://en.wikipedia.org/wiki/Main_Page
网站获得了所有引用,尽管如此,您也可以将此机制视为URL-Tree Walker。
如果您对实施有任何疑问,请问我,因为我在上一个学生项目中也做了类似的实施。