我使用Tweepy和python爬行Twitter数据。大家好,我有一个带有tweet文字的pandas数据框。但是几乎每条推文之后都有一个缩短的网址,例如:。
我想从文本中删除这些内容。我有这段代码,但我不明白为什么它不起作用:
def preprocess2(raw_text):
stopword_set = set(stopwords.words("english"))
raw_text = re.sub(r'^https?:\/\/.*[\r\n]*', '', raw_text, flags=re.MULTILINE)
return " ".join([i for i in re.sub(r'[^a-zA-Z\s]', "", raw_text).lower().split() if i not in stopword_set])
输入: “我需要糖宝贝,我将满足您的需要,照顾好您,倾听我的声音,告诉我您的担心……https://dfdf/dfsd”
期望的输出:
“我需要糖宝贝,我将满足您的需求,照顾好您,倾听我的心声,告诉我您的担心……”
答案 0 :(得分:0)
在您的示例中,URL不在行的开头。因此,您的正则表达式中的^
不匹配。删除此单个字符应该可以解决问题:
raw_text = re.sub(r'https?:\/\/.*[\r\n]*', '', raw_text, flags=re.MULTILINE)