我可以使用哪些现成的算法对Twitter进行数据挖掘,以找出Twitter上2人之间的分离程度。
当社交图持续不断变化和更新时,它是如何变化的。
然后,有没有我可以使用的Twitter社交图数据的转储,而不是重新启动这么多的API调用。
答案 0 :(得分:5)
<强> What's the Data Mining Feed and can I have access to it? 强>
The Data Mining Feed是我们的/ statuses / public_timeline REST API方法的扩展版本。它返回600个最近的公共状态,一次缓存一分钟。您可以每分钟请求一次,以获取Twitter上公共状态的代表性样本。我们为研究人员和业余爱好者免费提供此服务(并且没有任何服务质量保证)。我们只要求您提供您的研究或项目的简要说明以及您要求提供的IP地址;只需填写此表格即可。请注意,数据挖掘Feed并非旨在提供Twitter上所有公共更新的连续流;请参阅上文,了解有关即将推出的“firehose”解决方案的更多信息。
答案 1 :(得分:0)
有一家公司提供社交图的转储,但它已被删除,不再可用。正如你已经意识到的那样 - 它有点难,因为它一直在变化。
我建议查看他们的social_graph api方法,因为他们使用最少的API调用提供最多信息。
答案 2 :(得分:0)
可能还有其他方法可以做到这一点,但过去10分钟我只是在做类似的事情,并偶然发现了这个问题。
我使用的是无向的(并且加权 - 因为我也想查看位置)图形 - 在py中使用JgraphT或类似物; JGraphT是基于java的,但包括不同的预先写好的算法。
然后,您可以使用名为BellmanFord的算法;采用整数输入并使用整数输入搜索图表中的最短路径,并且只搜索整数输入,与Dijkstras不同。
http://en.wikipedia.org/wiki/Bellman%E2%80%93Ford_algorithm
我最近在一个用于飞行路线的项目中使用它,迭代以找到最短'跳'(边缘)的最短路径。