Question

我有一个数据集，其中1列有推文，其他列有推文标签。我的问题是我希望删除推文中的html链接，例如

RT @AmDiabetesAssn：知道什么是可怕的吗？这些#diabetes统计数据。今年11月为#DiabetesMonth传播意识！ http://t.co/qIiiSc4ozZ

我有上面给出的推文我想删除（http://t.co/qIiiSc4ozZ）并希望以这种方式输出所有字符串。

RT @AmDiabetesAssn：知道什么是可怕的吗？这些#diabetes统计数据。今年11月为#DiabetesMonth传播意识！

我已经看过很多例子并尝试过这些例子，但无法得到理想的结果。请帮忙。提前致谢。

Answer 1

我尝试了这个，它适用于任何没有空格的链接：

for tweet in tweets:
  print re.sub(r'http://\S+\s?','',tweet)

我在这里假设您在tweets数组中有一堆字符串代表您上面描述的第一列（也是您希望它们打印出来的）。您应该能够修改以适应您正在使用的迭代模式。