Question

我正在学习文本挖掘，并且正在按照here

中的代码来处理Twitter数据

尽管代码是针对2.xx的，但我已将其转换为3.xx。我只使用了代码，直到绘制出前5个国家/地区的图形，然后才想从数据中提取仅英语的推文并将其写到文本文件中，

eng_tweets = tweets.loc[tweets['lang'] == 'en', 'text']

with open('eng.txt', 'w', encoding='utf8') as engtweets:

    print(eng_tweets, file = engtweets)

尽管这确实为我提供了英文唯一的推文，但如果它们更长一些，它们会在记事本中大约150列之后被截断（带有...）。我在stackexchange上搜索并找到了解决方案，将max_colwidth设置为-1，我这样做如下

pd.set_option('display.max_columns', None)  
pd.set_option('display.max_rows', None)
pd.set_option('display.max_colwidth', -1)
pd.set_option('display.width', 200)
pd.set_option('display.expand_frame_repr', False)
pd.set_option('display.float_format', '{:20,.2f}'.format)

即使那样，.txt文件中的文本也会被截断。任何帮助将不胜感激。

这是用于使用tweepy提取Twitter数据。

编辑这是指向我正在使用的完整code和部分txt文件的链接

编辑2 抱歉，忘了在这里提到文件“ eng”中的一些当前文本行。

719不，我在@Netflix上看到了Gerald的游戏 720 RT @ AnnaApp91838450：奥巴马夫妇和Netflix刚刚公开了他们正在制作的电视节目和电影\ nPatriots Time to S…

编辑3 我是疯子。这些命令都可以正常工作，感谢您的帮助，但是当需要扩展注释时

 tweet['text']

不提供完整的推文。它必须从“ extended_tweet”键中提取。

即使将max_colwidth设置为-1

0 个答案: