api搜索结束后从Twitter文本中删除URL

时间:2018-12-29 15:23:38

标签: python url

我使用Tweepy和python爬行Twitter数据。大家好,我有一个带有tweet文字的pandas数据框。但是几乎每条推文之后都有一个缩短的网址,例如:。

我想从文本中删除这些内容。我有这段代码,但我不明白为什么它不起作用:

def preprocess2(raw_text):
    stopword_set = set(stopwords.words("english"))
    raw_text = re.sub(r'^https?:\/\/.*[\r\n]*', '', raw_text, flags=re.MULTILINE)
    return " ".join([i for i in re.sub(r'[^a-zA-Z\s]', "", raw_text).lower().split() if i not in stopword_set])

输入: “我需要糖宝贝,我将满足您的需要,照顾好您,倾听我的声音,告诉我您的担心……https://dfdf/dfsd

期望的输出:

“我需要糖宝贝,我将满足您的需求,照顾好您,倾听我的心声,告诉我您的担心……”

1 个答案:

答案 0 :(得分:0)

在您的示例中,URL不在行的开头。因此,您的正则表达式中的^不匹配。删除此单个字符应该可以解决问题:

raw_text = re.sub(r'https?:\/\/.*[\r\n]*', '', raw_text, flags=re.MULTILINE)