我收到一个非常奇怪的错误。当我尝试使用utf-8时,基本上添加了一个角色。
以下是我正在分析的链接内容:
https://www.dropbox.com/s/sjmsbuhrghj7abt/new_tweets.txt?dl=0
new_tweets = 'content in the link'
以下代码现在就像我想要的那样推出推文:
outtweets = [[tweet.text] for tweet in new_tweets]
print(outtweets)
输出
[['@ sicaleigh那是假的。'],['RT @ArgonautNews:@mikebonin想要 更多警察在巡逻。 #LAPD],[“RT @LAHomelessCount:我们已经超过了 7,000名注册志愿者和#正在攀登!大家好。让我们做 这有助于结束无家可归者。 #吨...“]]
(因为SE需要删除链接)
问题是此代码不适用于解析许多帐户。无论出于何种原因,您都需要使用utf-8对它们进行编码。
这是我修改后的代码
outtweets = [[tweet.text.encode("utf-8")] for tweet in new_tweets]
print(outtweets)
但是这导致在我的推文前放置了一组奇怪的b,这是我不想要的。
[[b'@ sicaleigh那是假的。'],[b'RT @ArgonautNews:@mikebonin希望更多警察巡逻。 #LAPD],[b“RT @LAHomelessCount:我们已经超过7,000名注册志愿者而#正在攀登!Thx all。让我们这样做并帮助结束无家可归者。#t \ xe2 \ x80 \ xa6”]]
为什么要添加此角色?我怎么摆脱它?
在某些情况下,它不仅仅是一个b,而是围绕它的另一组引号“”。所以我不确定只删除第一个字符会起作用