如何从数据集中删除每个字符串中的URL

时间:2014-11-25 00:42:11

标签: regex python-2.7 twitter

我有一个数据集,其中1列有推文,其他列有推文标签。我的问题是我希望删除推文中的html链接,例如

RT @AmDiabetesAssn:知道什么是可怕的吗?这些#diabetes统计数据。今年11月为#DiabetesMonth传播意识! http://t.co/qIiiSc4ozZ

我有上面给出的推文我想删除(http://t.co/qIiiSc4ozZ)并希望以这种方式输出所有字符串。

RT @AmDiabetesAssn:知道什么是可怕的吗?这些#diabetes统计数据。今年11月为#DiabetesMonth传播意识!

我已经看过很多例子并尝试过这些例子,但无法得到理想的结果。请帮忙。提前致谢。

1 个答案:

答案 0 :(得分:0)

我尝试了这个,它适用于任何没有空格的链接:

for tweet in tweets:
  print re.sub(r'http://\S+\s?','',tweet)

我在这里假设您在tweets数组中有一堆字符串代表您上面描述的第一列(也是您希望它们打印出来的)。您应该能够修改以适应您正在使用的迭代模式。