我正在写一个搜寻器,我有一个列表,其中包含一组类似于
的URL我想解析域名后具有相同结构的网址,并获得第一个网址,例如Burp Suite,它有一个可以删除重复网址(相同参数但值不同)的期货。
如您所见,相同但具有不同查询字符串的页面已被删除。这就是我要存档的内容。我尝试了很多正则表达式,但没有用。任何人都可以帮我解决这个问题。提前致谢。 P / s:对不起,我的英语。
答案 0 :(得分:0)
您可以使用urlparse
库将URL分成多个部分,然后提取所需的部分。例如:
>>> from urllib.parse import urlparse
>>> urlparse('http://somesite.com/page.php?id=sas231')
ParseResult(scheme='http', netloc='somesite.com', path='/page.php', params='', query='id=sas231', fragment='')
该库的python3版本的文档位于urlparse