Question

我正在写一个搜寻器，我有一个列表，其中包含一组类似于

的URL

somesite.com/colection/id/index.php?if=12
somesite.com/index.php?id=14
somesite.com/index.php?id=156
example.com/view.php?image=441
somesite.com/page.php?id=sas231
example.com/view.php?ivideo=4
somesite.com/page.php?id=56
example.com/view.php?image=1

我想解析域名后具有相同结构的网址，并获得第一个网址，例如Burp Suite，它有一个可以删除重复网址（相同参数但值不同）的期货。

somesite.com/colection/id/index.php?if=12
somesite.com/index.php?id=14
example.com/view.php?image=441
somesite.com/page.php?id=asa231
example.com/view.php?ivideo=4

如您所见，相同但具有不同查询字符串的页面已被删除。这就是我要存档的内容。我尝试了很多正则表达式，但没有用。任何人都可以帮我解决这个问题。提前致谢。 P / s：对不起，我的英语。

Answer 1

您可以使用urlparse库将URL分成多个部分，然后提取所需的部分。例如：

>>> from urllib.parse import urlparse
>>> urlparse('http://somesite.com/page.php?id=sas231')
ParseResult(scheme='http', netloc='somesite.com', path='/page.php', params='', query='id=sas231', fragment='')

该库的python3版本的文档位于urlparse

删除重复的网址结构

1 个答案: