找到给定网址的基本href

时间:2012-04-03 10:12:41

标签: php web-crawler baseline

我正在修改一个简单的php抓取器脚本。

它使用的模块之一是将相对URL转换为绝对URL。

为此,我需要找到一种方法来确定给定网址的基本href。否则我最终会得到一堆错误转换的链接。

我需要一个简单的函数来检查一个url是否有一个基本的href标记,如果是,则返回它。

由于

3 个答案:

答案 0 :(得分:0)

parse_url()将网址拆分为其部分。你可以从中获得所需的东西。

答案 1 :(得分:0)

我不知道你究竟是什么意思,但parse_url会给你很多信息,比如主机名,查询字符串等。

如果我理解正确,你就不知道你的网址中是否有http。信息parse_url返回的方案部分是你的朋友。如果scheme为空或与http不同,则表示您的URL中没有http。

在抓取工具内部,您开始抓取特定页面,并在我理解您的问题时解析该HTML。只需从parse_url信息中构建基本URL(不带路径),我就看不到任何问题。

答案 2 :(得分:0)

  

我需要一个简单的函数来检查一个url是否有一个基本的href标记,如果是,则返回它。

网址不能包含基本href标记,因为它是HTML标记。它可能在您从该URL中检索的HTML中定义。如何阅读可以找到at this question