我正在从Twitter抓取推文,并试图清除数据。我已经设法清理了大部分内容,除了\ n像这样“这是我的推文\ n,我真的很喜欢我的推文。
我尝试使用tweet_text = re.sub(r'\n','. ', tweet_text)
用" ."
替换\ n,但是我认为这只会删除字符串中\ n的出现,而不是两个单词之间出现的情况。
关于如何进行的任何建议都是很好的。
答案 0 :(得分:-1)
这应该可以解决问题:
result = ''
tweet = 'this is my tweet\nI really like my tweet.'
for _ in tweet:
if _ == r'\\' and tweet[tweet.index(_)+1] == 'n':
result += '. '
elif _ == 'n' and tweet[tweet.index(_)-1] == r'\\':
continue
else:
result += _