Question

有没有办法使用Python过滤已经处理过的数据集只用于英文文本？也许一些NLTK功能或类似的东西。数据来自Twitter，其格式如下：

<tweetid>, <username>, <userid> &8888 <tweet text>

流过滤是不合适的，因为我只有上面显示的格式的初始数据。任何帮助将不胜感激，谢谢。

Answer 1

您需要的是语言检测模块。

from textblob import TextBlob    
textBlob('your tweet').detect_language()