我正在使用this方法,但是当我尝试用lang =“en”指定英语时,我认为它的其他变体都不起作用。这就是我所投入的内容(即使使用关键词来进一步限制它),它仍然不会只给我英语。我试过有没有关键字。我正在尝试用英语为一个研究项目建立一个200,000+ Tweet可搜索控制语料库,我不想手动浏览那么多Tweets。想法?
>>> from nltk.twitter import Twitter
>>> tw = Twitter()
>>> tw.tweets(keywords='Delicacy, reptile, death, hold, dark, column, gifted, surgeon, brave, fashion, pearl, diamond, bent, sparkle, present, missing, shadow, holiday, glide, scanner, luster, immunity, devour, discipline, barbaric, fortunate, heart, puzzle, ache, crystal',
limit=10000, lang="en", to_screen=False)
Writing to /Users/rhiannalavalla/twitter-files/tweets.20170521-235221.json
Written 10000 Tweets
答案 0 :(得分:0)
lang
选项会传递给Twitter search API,因此您需要"英语"鸣叫。但你用过twitter吗?您不必声明每条推文的语言,因此Twitter 无法严格限制您的结果。 lang
选项显然与作者对其UI的语言选择相匹配,而不是单个推文的语言。
要将结果限制为英文推文,请使用可能仅对英语使用者感兴趣的主题标签和/或用户ID进行搜索(具体情况取决于您的语料库的用途)。或者(或者可能另外),您可以尝试使用自动语言识别算法来过滤掉可疑的推文。 nltk附带langid
语言三元语法统计数据库,您可以使用它来训练识别器。