如何从推文中删除主题标签和@提及? -python /熊猫

时间:2019-02-24 19:29:04

标签: python pandas tweets

我想编写一个定义,该定义接受一个字符串(一条推文),并创建一个2列数据框,其中第1列带有#标签,而在另一列上@提及。

我现在正在使用split,但是想要这样的东西:
(密码)

string.split("@"||"#", if "#" assign to column1 else column2)

我知道您可以在R中执行与“哪个”类似的操作,但是在这里不知道该怎么做。

谢谢

PS。我将所有推文的数据集下载到txt文件中。

1 个答案:

答案 0 :(得分:1)

最简单的方法是在一个循环中仅进行2个测试:

hashtags = []
users = []

# Split tweet on whitepace into words
for word in tweet:
    if word.startswith('#'):
        hashtags.append(word)
    elif word.startswith('@'):
        users.append(word)

(根据需要替换列表并附加数据框操作)。