我面对这样的问题。我使用tweepy来收集+10000条推文,我使用nltk naive-bayes分类并将推文过滤为+5000。 我想从分类5000推文中生成一个用户友谊图。问题是我可以使用tweepy.api.show_frienship()检查它,但它需要花费很多很多时间,有时最终会出现无限的速率限制错误。
有什么方法可以更有效地检查友谊吗?
答案 0 :(得分:0)
我对Tweepy的限制知之甚少,但你总是可以用urllib和BeautifulSoup编写一个基本的web scraper来实现这一点。
您可以使用www.doesfollow.com
这样的网站来完成您要执行的操作。 (不确定此页面的请求限制,但有许多其他网站也做同样的事情)这个网站很有趣,因为网址非常简单。
例如,为了检查Google和Twitter是否是"朋友"在Twitter上,链接只是www.doesfollow.com/google/twitter
。
这样您就可以轻松浏览用户,因为您可以将用户添加到网址,例如'www.doesfollow.com/'+ user1 + '/' + user2
如果用户是Twitter上的朋友,则dofollow的结果页面会显示此标记:
<div class="yup">yup</div>
,
如果用户不是推特上的朋友,则使用此标记:
<div class="nope">nope</div>
因此,您可以解析页面源代码并搜索以找出哪些标记存在,以确定用户是否是Twitter上的朋友。
这可能不是您想要解决问题的方式,但这是一种可能性。我不完全确定如何处理问题的图形部分。我不得不调查一下。