我有主机列表,想要获取它们的主页网址。标题html中存在的变量位置有时返回URL,在大多数情况下,参数未设置。例如,URL“http://www.sharif.ir”没有位置参数,主页为“http://www.sharif.ir/home” 。我如何从主机URL获取主页URL? 谢谢
答案 0 :(得分:1)
你的案子似乎是一个寻宝游戏。按照线索:
http://www.sharif.ir
返回HTTP 200,页面包含自动html重定向(meta http-equiv = refresh)到页面/c
(http://www.sharif.ir/c
)http://www.sharif.ir/c
返回HTTP 302,重定向到http://www.sharif.ir/c/portal/layout
http://www.sharif.ir/c/portal/layout
返回HTTP 302,重定向到http://www.sharif.ir/home
欢迎来到您的目的地! :)
首先,tou需要解析第一页结果标题中的元刷新标记以获取位置(内容属性:url=<relative path>
)。