Python:从文本中删除损坏的URL

时间:2017-12-24 23:08:52

标签: python url data-cleaning

我有一个包含大量损坏网址的文件。我的意思是,网址在随机位置有空格。例如,

  

我喜欢足球。看这个。 https:// m.facebook.com/story.php?stor   y_fbid = 101595031& id = 831030我也喜欢足球。

查看m.facebook.com之前和y_bid之前的空格。

空间的位置没有图案。它们是随机的。

有没有办法从整个文本文件中清除/删除这些损坏的URL;最好用Python吗?

对于上面的例子,首选输出是 -

  

我喜欢足球。我也喜欢足球。

2 个答案:

答案 0 :(得分:1)

我能想到的最简单的SHELL解决方案就是使用grep来删除每一行的空格。

cat /tmp/bokenURLsFile | grep -v " "  > /tmp/validURLsOnly

如果您没有部署" url cleasing"这似乎是最好的方式。

答案 1 :(得分:0)

使用* nix,您可以轻松地从文件fred中的行中删除空格:

cat fred | tr -d ' ' > newfred

删除网址很困难,因为没有规则来指定它的结束。通过使用类似:

之类的东西,很容易删除第一个空白的网址
sed 's/http.* //'

您最好删除带有嵌入空格的URL,就是知道您正在处理的文件是如何生成的,如果可能的话,请更早地拦截您遇到的问题。