Question

我有一个类似于

的网址列表文件

    Www.dell.com/any=abc&anyone=bcd
    Www.google.co.in 
    Www.yahoo.com/abc=fgh

我想要清理，因为它们只显示等号=的数据。例如，上面显示的行应输出

Www.dell.com/any=
Www.dell.com/any=abc&anyone=
Www.google.co.in 
Www.yahoo.com/abc=

在python或bash等中代码清理的任何脚本建议？

Answer 1

使用正则表达式逐行脚本，该正则表达式只将令牌＃1添加到结果文件

正则表达式获取第一行的所有内容=

^([^=]*=)

编辑您的第二个示例有几个参数与文本不完全匹配，我专注于您的文本以删除FIRST后的所有内容= 否则用[^ =]替换。得到一切直到最后=

Answer 2

url = re.sub(r'^(.*?=).*$', r'\1', url)

这将直到第一个“=”为止。除掉 ”？”标记以获取URL直到最后“=”。

Answer 3

你可以在Python中循环并删除这样的行。

for l in urls:
    print l.split('=')[0]