使用tweepy收集推文时出现编码问题

时间:2019-06-13 20:04:29

标签: pandas csv encoding tweepy

我正在使用Tweepy收集推文以形成数据集。当使用搜索功能提取推文时,它会完美地收集推文,尽管其中确实包含诸如'\ n'之类的字符,并且可以轻松删除。

当我尝试将其保存为csv时会出现问题,这些推文当前在utf-8-sig中进行编码,因为它提供的问题数量最少,但编码问题仍然存在。正如我的代码所预期的那样,函数和定义使我感到困惑,因为我不是使用Python的专家,因此,非常感谢任何普通的代码,但欢迎任何帮助!

这是一个编码问题,我尝试了utf-8,utf-8-sig和ISO-8859-1等格式,但问题仍然存在。

我尝试在Excel,minitab和jupyter笔记本本身中检查dataframe / csv,但编码问题仍然存在。

consumer_key ='X' Consumer_secret ='X'

access_token ='X' access_token_secret ='X'

auth = tweepy.OAuthHandler(consumer_key,consumer_secret) auth.set_access_token(access_token,access_token_secret)

api = tweepy.API(auth)

public_tweets = api.search(q ='Vaccines -filter:retweets',count = 110,tweet_mode ='extended',lang ='en')

df = pd.DataFrame(data = [tweet.full_text for public_tweets中的tweet],列= ['Tweets'])

df.to_csv('C:\ Users \ 15082537 \ Dropbox \ Fourth year \ 5.Dissertation \ Datasets \ Test.csv',index = False,encoding ='utf-8-sig',mode ='a' ,header = False)

大多数推文都很好:

另一项针对超过65万名儿童的大规模研究表明,疫苗与自闭症之间绝对没有联系。医生说,这证明我们生活在一个“反对事实”的世界中。

新泽西敦肯甜甜圈员工进行肝炎检测后,官员敦促进行疫苗接种

但是,有些鸣叫是这样发出的:

GiveYourKidsAShot让他们的梦想成为现实。多亏了接种疫苗,我们可以防止许多致命疾病的传播。确保您的孩子今天使用最新的疫苗,以保护他们免于疫苗可预防的疾病!#VaccinesWork

@DrAmirKhanGP他为什么不在监狱里。他为这么多的苦难负责。我讨厌他。而且我不容易讨厌。因为他都想卖麻疹疫苗

0 个答案:

没有答案