使用Python仅对英语语言文本进行Twitter数据集过滤

时间:2016-07-20 18:40:13

标签: python twitter nlp text-mining tweets

有没有办法使用Python过滤已经处理过的数据集只用于英文文本?也许一些NLTK功能或类似的东西。数据来自Twitter,其格式如下:

<tweetid>, <username>, <userid> &8888 <tweet text>

流过滤是不合适的,因为我只有上面显示的格式的初始数据。 任何帮助将不胜感激,谢谢。

1 个答案:

答案 0 :(得分:1)

您需要的是语言检测模块。

from textblob import TextBlob    
textBlob('your tweet').detect_language()