我正在学习文本挖掘,并且正在按照here
中的代码来处理Twitter数据尽管代码是针对2.xx的,但我已将其转换为3.xx。我只使用了代码,直到绘制出前5个国家/地区的图形,然后才想从数据中提取仅英语的推文并将其写到文本文件中,
eng_tweets = tweets.loc[tweets['lang'] == 'en', 'text']
with open('eng.txt', 'w', encoding='utf8') as engtweets:
print(eng_tweets, file = engtweets)
尽管这确实为我提供了英文唯一的推文,但如果它们更长一些,它们会在记事本中大约150列之后被截断(带有...)。我在stackexchange上搜索并找到了解决方案,将max_colwidth设置为-1,我这样做如下
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.set_option('display.max_colwidth', -1)
pd.set_option('display.width', 200)
pd.set_option('display.expand_frame_repr', False)
pd.set_option('display.float_format', '{:20,.2f}'.format)
即使那样,.txt文件中的文本也会被截断。 任何帮助将不胜感激。
这是用于使用tweepy提取Twitter数据。
编辑 这是指向我正在使用的完整code和部分txt文件的链接
编辑2 抱歉,忘了在这里提到文件“ eng”中的一些当前文本行。
719不,我在@Netflix上看到了Gerald的游戏 720 RT @ AnnaApp91838450:奥巴马夫妇和Netflix刚刚公开了他们正在制作的电视节目和电影\ nPatriots Time to S…
编辑3 我是疯子。这些命令都可以正常工作,感谢您的帮助,但是当需要扩展注释时
tweet['text']
不提供完整的推文。它必须从“ extended_tweet”键中提取。