如何使用parse_url规范化url?

时间:2013-07-28 13:53:09

标签: php url parse-url

我正在尝试进行非常基本的规范化,并意识到在很大程度上,url规范化是一项不可能完成的任务。

无论如何,不​​同的搜索引擎会使用不同的方案,主机等返回相同的搜索结果。我需要收集哪些最基本的部分,您是否可以使用parse_url收集多个部分以仅留下网址的重要部分?

结果1:http://dogs.com 结果2:http://www.dogs.com

需要考虑可能的这些不一致的情况,并且可以由不同的搜索引擎生成

1 个答案:

答案 0 :(得分:1)

  

结果1:http://dogs.com结果2:http://www.dogs.com

这两个不一样:一个是主域,另一个是子域。无法保证它们提供相同的内容。

您要求的内容基本上是不可能的:网址的任何部分都很重要,更改网址可能会导致页面不同。

也就是说, <meta> 有一个canonical标记,表示网页的规范化网址。只有那个URL(有些)保证是正确的。

此外,您可以从页面中提取内容并进行比较。但是,再一次,没有保证。