删除基于Pattern的字符串重复项

时间:2015-10-08 23:24:13

标签: python

我有http://WEBSITE.com/XXXXX/YYYYY格式的网址列表,其中XY是随机字符。

我如何让Python只保留具有不同的不区分大小写的XXXXX值的结果?它是否保留YYYYY部分并不重要?

3 个答案:

答案 0 :(得分:2)

查看Set,然后使用rsplitset用于通过分隔符(例如“/”)拆分字符串,{{1}}包含唯一元素。

https://docs.python.org/2/library/stdtypes.html - rsplit() https://docs.python.org/2/library/stdtypes.html#set - 设置

答案 1 :(得分:2)

好吧,你可以轻松地削掉路径的最后部分:

id = "/".join(url.split('/')[:-1]) # split, lose last item, rejoin

然后将您的ID放在set()上以保持其唯一性:

ids = set()
ids.add(id)

答案 2 :(得分:1)

使用集合理解:

values = { url.split("/")[3] for url in url_list }