我正在尝试进行非常基本的规范化,并意识到在很大程度上,url规范化是一项不可能完成的任务。
无论如何,不同的搜索引擎会使用不同的方案,主机等返回相同的搜索结果。我需要收集哪些最基本的部分,您是否可以使用parse_url收集多个部分以仅留下网址的重要部分?
结果1:http://dogs.com 结果2:http://www.dogs.com
需要考虑可能的这些不一致的情况,并且可以由不同的搜索引擎生成
答案 0 :(得分:1)
这两个不一样:一个是主域,另一个是子域。无法保证它们提供相同的内容。
您要求的内容基本上是不可能的:网址的任何部分都很重要,更改网址可能会导致页面不同。
也就是说, <meta>
有一个canonical
标记,表示网页的规范化网址。只有那个URL(有些)保证是正确的。
此外,您可以从页面中提取内容并进行比较。但是,再一次,没有保证。