我正在尝试使用多个搜索字词来获取推文语料库。我遇到的一个问题是它无法获得独特的推文。转发。
有没有办法在不进行任何文字处理的情况下事先删除它们?
我现在得到了什么:
api=tweepy.API(auth)
for search in hashtags:
for tweet in tweepy.Cursor(api.search,q=search,count=1000,lang="en").items():
text=repr(tweet.text.encode("utf-8"))
out.write(text+"\n")
答案 0 :(得分:3)
您可以在查询中添加“-filter:转推”以仅获取原始推文。也许不是最漂亮的解决方案,但它确实有效。
KEY: VAL1, VAL2, VAL3,