我使用以下代码从twitter获取推文并处理它以用于情感摘要。当我从推文中过滤出英文单词以进行某些查询时,只剩下很少量的数据,这对于分析是不够的。如何单独增加英文推文的数量?
from twitter import *
t = Twitter(
auth=OAuth("<authentication codes>")
)
t.statuses.home_timeline()
data = t.search.tweets(q=query)
for i in range (len(data['statuses'])):
test = data['statuses'][i]['text']
test = test.lower()
test = re.sub('[\s]+', ' ', test)
test = re.sub('@[^\s]+','USER',test)
test = re.sub('((www\.[\s]+)|(https?://[^\s]+))','URL',test)
test = test.strip('\'"')
for w in test.split(' '):
if detectEnglish.isEnglish(w)==True:
print w