我正在使用Tweepy收集推文以形成数据集。当使用搜索功能提取推文时,它会完美地收集推文,尽管其中确实包含诸如'\ n'之类的字符,并且可以轻松删除。
当我尝试将其保存为csv时会出现问题,这些推文当前在utf-8-sig中进行编码,因为它提供的问题数量最少,但编码问题仍然存在。正如我的代码所预期的那样,函数和定义使我感到困惑,因为我不是使用Python的专家,因此,非常感谢任何普通的代码,但欢迎任何帮助!
这是一个编码问题,我尝试了utf-8,utf-8-sig和ISO-8859-1等格式,但问题仍然存在。
我尝试在Excel,minitab和jupyter笔记本本身中检查dataframe / csv,但编码问题仍然存在。
consumer_key ='X' Consumer_secret ='X'
access_token ='X' access_token_secret ='X'
auth = tweepy.OAuthHandler(consumer_key,consumer_secret) auth.set_access_token(access_token,access_token_secret)
api = tweepy.API(auth)
public_tweets = api.search(q ='Vaccines -filter:retweets',count = 110,tweet_mode ='extended',lang ='en')
df = pd.DataFrame(data = [tweet.full_text for public_tweets中的tweet],列= ['Tweets'])
df.to_csv('C:\ Users \ 15082537 \ Dropbox \ Fourth year \ 5.Dissertation \ Datasets \ Test.csv',index = False,encoding ='utf-8-sig',mode ='a' ,header = False)
大多数推文都很好:
另一项针对超过65万名儿童的大规模研究表明,疫苗与自闭症之间绝对没有联系。医生说,这证明我们生活在一个“反对事实”的世界中。
新泽西敦肯甜甜圈员工进行肝炎检测后,官员敦促进行疫苗接种
但是,有些鸣叫是这样发出的:
@DrAmirKhanGP他为什么不在监狱里。他为这么多的苦难负责。我讨厌他。而且我不容易讨厌。因为他都想卖麻疹疫苗