我正在提取仅使用英语编写的推文,我使用了以下过滤器
stream.filter(stall_warnings=True, track=['#brain'], languages=['en'])
但不幸的是,这个过滤器会返回一条推文,它是英语和其他语言的组合
请参阅推文here
如何提取仅以英语编写的推文?
注意:如果链接其他人的推文错误,我很抱歉。
答案 0 :(得分:0)
这些推文被Twitter用一种或另一种语言分类。他们的分类并不总是正确的。如果推文使用多种语言,则只需将其分配给其中一种语言。
因此,您需要在应用中根据字典过滤它们,或者使用某些语言检测库,以确保您收到的推文上只使用英语。
来源:https://blog.twitter.com/2013/introducing-new-metadata-for-tweets