我正在修改一个简单的php抓取器脚本。
它使用的模块之一是将相对URL转换为绝对URL。
为此,我需要找到一种方法来确定给定网址的基本href。否则我最终会得到一堆错误转换的链接。
我需要一个简单的函数来检查一个url是否有一个基本的href标记,如果是,则返回它。
由于
答案 0 :(得分:0)
parse_url()
将网址拆分为其部分。你可以从中获得所需的东西。
答案 1 :(得分:0)
我不知道你究竟是什么意思,但parse_url会给你很多信息,比如主机名,查询字符串等。
如果我理解正确,你就不知道你的网址中是否有http。信息parse_url返回的方案部分是你的朋友。如果scheme为空或与http不同,则表示您的URL中没有http。
在抓取工具内部,您开始抓取特定页面,并在我理解您的问题时解析该HTML。只需从parse_url信息中构建基本URL(不带路径),我就看不到任何问题。
答案 2 :(得分:0)
我需要一个简单的函数来检查一个url是否有一个基本的href标记,如果是,则返回它。
网址不能包含基本href标记,因为它是HTML标记。它可能在您从该URL中检索的HTML中定义。如何阅读可以找到at this question。