Question

我有一个包含大量损坏网址的文件。我的意思是，网址在随机位置有空格。例如，

我喜欢足球。看这个。 https：// m.facebook.com/story.php?stor y_fbid = 101595031＆amp; id = 831030我也喜欢足球。

查看m.facebook.com之前和y_bid之前的空格。

空间的位置没有图案。它们是随机的。

有没有办法从整个文本文件中清除/删除这些损坏的URL;最好用Python吗？

对于上面的例子，首选输出是 -

我喜欢足球。我也喜欢足球。

Answer 1

我能想到的最简单的SHELL解决方案就是使用grep来删除每一行的空格。

cat /tmp/bokenURLsFile | grep -v " "  > /tmp/validURLsOnly

如果您没有部署＆＃34; url cleasing＆＃34;这似乎是最好的方式。

Answer 2

使用* nix，您可以轻松地从文件fred中的行中删除空格：

cat fred | tr -d ' ' > newfred

删除网址很困难，因为没有规则来指定它的结束。通过使用类似：

之类的东西，很容易删除第一个空白的网址

sed 's/http.* //'

您最好删除带有嵌入空格的URL，就是知道您正在处理的文件是如何生成的，如果可能的话，请更早地拦截您遇到的问题。