仅过滤英语推文时出错

时间:2015-01-08 01:36:12

标签: python-2.7 twitter tweepy data-extraction

我正在提取仅使用英语编写的推文,我使用了以下过滤器

stream.filter(stall_warnings=True, track=['#brain'], languages=['en'])

但不幸的是,这个过滤器会返回一条推文,它是英语和其他语言的组合

请参阅推文here

如何提取仅以英语编写的推文?

注意:如果链接其他人的推文错误,我很抱歉。

1 个答案:

答案 0 :(得分:0)

这些推文被Twitter用一种或另一种语言分类。他们的分类并不总是正确的。如果推文使用多种语言,则只需将其分配给其中一种语言。

因此,您需要在应用中根据字典过滤它们,或者使用某些语言检测库,以确保您收到的推文上只使用英语。

来源:https://blog.twitter.com/2013/introducing-new-metadata-for-tweets