检测是否有相同的网址

时间:2013-12-03 16:23:43

标签: python python-2.7

我目前正在使用Python开发一个项目,我遇到了一个小问题。

说我有两个网址:

  1. 网址1 = 'www.google.com'
  2. 网址2 = 'google.com/'
  3. 现在显然这两个网址是等价的:它们都指向同一页面。但是,我对字符串比较的简单实现无法检测到这一点。是否存在检测2个网址是否引用同一网页的现有方法?

    (第一次发布,我没有发现任何与此相似的内容;如果已经提出类似的话,我很抱歉。)

1 个答案:

答案 0 :(得分:0)

您可以对不同组件中的网址进行标记,并仅测试您感兴趣的字段。一个有用的python模块是tldextract,它将为您执行标记化。然后,您可以检查域+ tld是否相同,然后转到子域。然后,您可以决定在比较中删除一些子域名(例如' www')。