我有一个包含大量损坏网址的文件。我的意思是,网址在随机位置有空格。例如,
我喜欢足球。看这个。 https:// m.facebook.com/story.php?stor y_fbid = 101595031& id = 831030我也喜欢足球。
查看m.facebook.com之前和y_bid之前的空格。
空间的位置没有图案。它们是随机的。
有没有办法从整个文本文件中清除/删除这些损坏的URL;最好用Python吗?
对于上面的例子,首选输出是 -
我喜欢足球。我也喜欢足球。
答案 0 :(得分:1)
我能想到的最简单的SHELL解决方案就是使用grep来删除每一行的空格。
cat /tmp/bokenURLsFile | grep -v " " > /tmp/validURLsOnly
如果您没有部署" url cleasing"这似乎是最好的方式。
答案 1 :(得分:0)
使用* nix,您可以轻松地从文件fred中的行中删除空格:
cat fred | tr -d ' ' > newfred
删除网址很困难,因为没有规则来指定它的结束。通过使用类似:
之类的东西,很容易删除第一个空白的网址sed 's/http.* //'
您最好删除带有嵌入空格的URL,就是知道您正在处理的文件是如何生成的,如果可能的话,请更早地拦截您遇到的问题。