使用.encode(“utf-8”)时,我的字符串奇怪地添加了字符

时间:2017-01-28 22:08:07

标签: python twitter encoding utf-8

我收到一个非常奇怪的错误。当我尝试使用utf-8时,基本上添加了一个角色。

代码1

以下是我正在分析的链接内容:

https://www.dropbox.com/s/sjmsbuhrghj7abt/new_tweets.txt?dl=0

new_tweets = 'content in the link'

以下代码现在就像我想要的那样推出推文:

outtweets = [[tweet.text] for tweet in new_tweets]
print(outtweets)

输出

  

[['@ sicaleigh那是假的。'],['RT @ArgonautNews:@mikebonin想要   更多警察在巡逻。 #LAPD],[“RT @LAHomelessCount:我们已经超过了   7,000名注册志愿者和#正在攀登!大家好。让我们做   这有助于结束无家可归者。 #吨...“]]

(因为SE需要删除链接)

问题

问题是此代码不适用于解析许多帐户。无论出于何种原因,您都需要使用utf-8对它们进行编码。

代码2

这是我修改后的代码

outtweets = [[tweet.text.encode("utf-8")] for tweet in new_tweets]
print(outtweets)

问题

但是这导致在我的推文前放置了一组奇怪的b,这是我不想要的。

  

[[b'@ sicaleigh那是假的。'],[b'RT @ArgonautNews:@mikebonin希望更多警察巡逻。 #LAPD],[b“RT @LAHomelessCount:我们已经超过7,000名注册志愿者而#正在攀登!Thx all。让我们这样做并帮助结束无家可归者。#t \ xe2 \ x80 \ xa6”]]

我的问题:

为什么要添加此角色?我怎么摆脱它?

在某些情况下,它不仅仅是一个b,而是围绕它的另一组引号“”。所以我不确定只删除第一个字符会起作用

0 个答案:

没有答案