我有一个类似于
的网址列表文件 Www.dell.com/any=abc&anyone=bcd
Www.google.co.in
Www.yahoo.com/abc=fgh
我想要清理,因为它们只显示等号=
的数据。例如,上面显示的行应输出
Www.dell.com/any=
Www.dell.com/any=abc&anyone=
Www.google.co.in
Www.yahoo.com/abc=
在python或bash等中代码清理的任何脚本建议?
答案 0 :(得分:0)
使用正则表达式逐行脚本,该正则表达式只将令牌#1添加到结果文件
正则表达式获取第一行的所有内容=
^([^=]*=)
编辑您的第二个示例有几个参数与文本不完全匹配,我专注于您的文本以删除FIRST后的所有内容= 否则用[^ =]替换。得到一切直到最后=
答案 1 :(得分:0)
url = re.sub(r'^(.*?=).*$', r'\1', url)
这将直到第一个“=”为止。除掉 ”?”标记以获取URL直到最后“=”。
答案 2 :(得分:0)
你可以在Python中循环并删除这样的行。
for l in urls:
print l.split('=')[0]