从txt文件中清除大量URL参数

时间:2017-01-29 17:00:34

标签: python bash curl wget

我有一个类似于

的网址列表文件
    Www.dell.com/any=abc&anyone=bcd
    Www.google.co.in 
    Www.yahoo.com/abc=fgh

我想要清理,因为它们只显示等号=的数据。例如,上面显示的行应输出

Www.dell.com/any=
Www.dell.com/any=abc&anyone=
Www.google.co.in 
Www.yahoo.com/abc=

在python或bash等中代码清理的任何脚本建议?

3 个答案:

答案 0 :(得分:0)

使用正则表达式逐行脚本,该正则表达式只将令牌#1添加到结果文件

正则表达式获取第一行的所有内容=

^([^=]*=)

编辑您的第二个示例有几个参数与文本不完全匹配,我专注于您的文本以删除FIRST后的所有内容= 否则用[^ =]替换。得到一切直到最后=

答案 1 :(得分:0)

url = re.sub(r'^(.*?=).*$', r'\1', url)

这将直到第一个“=”为止。除掉 ”?”标记以获取URL直到最后“=”。

答案 2 :(得分:0)

你可以在Python中循环并删除这样的行。

for l in urls:
    print l.split('=')[0]