我正在尝试标记推文,但出现错误: TypeError:预期的字符串或类似字节的对象
我正在清洁以毫升为单位的推文,因此也要进行标记化。
# remove twitter handles (@user)
def remove_pattern(input_txt, pattern):
r = re.findall(pattern, input_txt)
for i in r:
input_txt = re.sub(i, '', input_txt)
return input_txt
# remove twitter handles and create new column with clean tweet
data_df['cleaned_tweet'] = np.vectorize(remove_pattern)(data_df['text'], "@[\w]*")
答案 0 :(得分:0)
这是因为twitter文本不是字符串,而是对象,您必须将对象转换为字符串,并输入:input_txt =str(input_txt)
。