有没有办法使用Python过滤已经处理过的数据集只用于英文文本?也许一些NLTK功能或类似的东西。数据来自Twitter,其格式如下:
<tweetid>, <username>, <userid> &8888 <tweet text>
流过滤是不合适的,因为我只有上面显示的格式的初始数据。 任何帮助将不胜感激,谢谢。
答案 0 :(得分:1)
您需要的是语言检测模块。
from textblob import TextBlob
textBlob('your tweet').detect_language()