我有一个数据集,其中1列有推文,其他列有推文标签。我的问题是我希望删除推文中的html链接,例如
RT @AmDiabetesAssn:知道什么是可怕的吗?这些#diabetes统计数据。今年11月为#DiabetesMonth传播意识! http://t.co/qIiiSc4ozZ我有上面给出的推文我想删除(http://t.co/qIiiSc4ozZ)并希望以这种方式输出所有字符串。
RT @AmDiabetesAssn:知道什么是可怕的吗?这些#diabetes统计数据。今年11月为#DiabetesMonth传播意识!我已经看过很多例子并尝试过这些例子,但无法得到理想的结果。请帮忙。提前致谢。
答案 0 :(得分:0)
我尝试了这个,它适用于任何没有空格的链接:
for tweet in tweets:
print re.sub(r'http://\S+\s?','',tweet)
我在这里假设您在tweets
数组中有一堆字符串代表您上面描述的第一列(也是您希望它们打印出来的)。您应该能够修改以适应您正在使用的迭代模式。