Twitter数据挖掘:分离度

时间:2009-04-24 10:30:18

标签: python twitter dump social-graph

我可以使用哪些现成的算法对Twitter进行数据挖掘,以找出Twitter上2人之间的分离程度。

当社交图持续不断变化和更新时,它是如何变化的。

然后,有没有我可以使用的Twitter社交图数据的转储,而不是重新启动这么多的API调用。

3 个答案:

答案 0 :(得分:5)

来自Twitter API

<强> What's the Data Mining Feed and can I have access to it?

The Data Mining Feed是我们的/ statuses / public_timeline REST API方法的扩展版本。它返回600个最近的公共状态,一次缓存一分钟。您可以每分钟请求一次,以获取Twitter上公共状态的代表性样本。我们为研究人员和业余爱好者免费提供此服务(并且没有任何服务质量保证)。我们只要求您提供您的研究或项目的简要说明以及您要求提供的IP地址;只需填写此表格即可。请注意,数据挖掘Feed并非旨在提供Twitter上所有公共更新的连续流;请参阅上文,了解有关即将推出的“firehose”解决方案的更多信息。

还可以看到:Streaming API Documentation

答案 1 :(得分:0)

有一家公司提供社交图的转储,但它已被删除,不再可用。正如你已经意识到的那样 - 它有点难,因为它一直在变化。

我建议查看他们的social_graph api方法,因为他们使用最少的API调用提供最多信息。

答案 2 :(得分:0)

可能还有其他方法可以做到这一点,但过去10分钟我只是在做类似的事情,并偶然发现了这个问题。

我使用的是无向的(并且加权 - 因为我也想查看位置)图形 - 在py中使用JgraphT或类似物; JGraphT是基于java的,但包括不同的预先写好的算法。

然后,您可以使用名为BellmanFord的算法;采用整数输入并使用整数输入搜索图表中的最短路径,并且只搜索整数输入,与Dijkstras不同。

http://en.wikipedia.org/wiki/Bellman%E2%80%93Ford_algorithm

我最近在一个用于飞行路线的项目中使用它,迭代以找到最短'跳'(边缘)的最短路径。