我想编写一个定义,该定义接受一个字符串(一条推文),并创建一个2列数据框,其中第1列带有#标签,而在另一列上@提及。
我现在正在使用split,但是想要这样的东西:
(密码)
string.split("@"||"#", if "#" assign to column1 else column2)
我知道您可以在R中执行与“哪个”类似的操作,但是在这里不知道该怎么做。
谢谢
PS。我将所有推文的数据集下载到txt文件中。
答案 0 :(得分:1)
最简单的方法是在一个循环中仅进行2个测试:
hashtags = []
users = []
# Split tweet on whitepace into words
for word in tweet:
if word.startswith('#'):
hashtags.append(word)
elif word.startswith('@'):
users.append(word)
(根据需要替换列表并附加数据框操作)。