我目前正在使用Python开发一个项目,我遇到了一个小问题。
说我有两个网址:
'www.google.com'
'google.com/'
现在显然这两个网址是等价的:它们都指向同一页面。但是,我对字符串比较的简单实现无法检测到这一点。是否存在检测2个网址是否引用同一网页的现有方法?
(第一次发布,我没有发现任何与此相似的内容;如果已经提出类似的话,我很抱歉。)
答案 0 :(得分:0)
您可以对不同组件中的网址进行标记,并仅测试您感兴趣的字段。一个有用的python模块是tldextract,它将为您执行标记化。然后,您可以检查域+ tld是否相同,然后转到子域。然后,您可以决定在比较中删除一些子域名(例如' www')。