Question

我使用Tweepy和python爬行Twitter数据。大家好，我有一个带有tweet文字的pandas数据框。但是几乎每条推文之后都有一个缩短的网址，例如：。

我想从文本中删除这些内容。我有这段代码，但我不明白为什么它不起作用：

def preprocess2(raw_text):
    stopword_set = set(stopwords.words("english"))
    raw_text = re.sub(r'^https?:\/\/.*[\r\n]*', '', raw_text, flags=re.MULTILINE)
    return " ".join([i for i in re.sub(r'[^a-zA-Z\s]', "", raw_text).lower().split() if i not in stopword_set])

输入： “我需要糖宝贝，我将满足您的需要，照顾好您，倾听我的声音，告诉我您的担心……https://dfdf/dfsd”

期望的输出：

“我需要糖宝贝，我将满足您的需求，照顾好您，倾听我的心声，告诉我您的担心……”

Answer 1

在您的示例中，URL不在行的开头。因此，您的正则表达式中的^不匹配。删除此单个字符应该可以解决问题：

raw_text = re.sub(r'https?:\/\/.*[\r\n]*', '', raw_text, flags=re.MULTILINE)

api搜索结束后从Twitter文本中删除URL

1 个答案: