通过关注者排名的推文中找到主题的好算法?

时间:2011-01-05 17:41:10

标签: python algorithm r cluster-analysis data-mining

我是数据挖掘和实验的新手。

假设我有N个推特用户和我想找的东西 是他们写的总体主题(基于推文) 然后,如果该用户拥有更高的粉丝,我想为每个主题赋予更高的权重。

然后我想合并所有主题,如果有足够的相似但仍然 通过推特计数保留权重。

所以基本上是按权限排列的“重要”主题列表(用户的推特计数)

例如,像news.google.com,但排名将基于负责主题的推特粉丝。

我更喜欢python中的东西,因为那是我最熟悉的语言。

有什么想法吗?

由于

编辑: 这是我正在尝试做的一个很好的例子(但是有差异数据) http://www.facebook.com/notes/facebook-data-team/whats-on-your-mind/477517358858

基本上分析各种数据及其相互关系:工作类别和每个人的年龄,单词类别和朋友数量,如本例所示。

我将从哪里开始解决此问题并生成此类图表?

2 个答案:

答案 0 :(得分:4)

一般来说:R有一些专门针对文本挖掘和数据挖掘的软件包,提供了广泛的技术。我不知道Python中的那种软件包,但这并不意味着它们不存在。我只是不会自己实现它,它比它第一眼看上去要复杂一点。

你必须考虑的一些事情:

  • 定义“主题”:这是他们使用的标签吗?你是否对标签进行分组你有一个有限集的小名单,或者是无限制的集合吗?
  • 定义“一般主题”:这是最常用的主题吗?你是如何处理关系的?如果用户写了大约10个主题,那么呢?
  • 定义“权重”:这相当于用户数量?平方根?某些类别?

如果您对此有一般性的了解,可以开始使用tm package以可行的格式提取所有信息。该包基于矩阵和元数据对象。这些允许您获得不同主题的加权频率,前提是您已定义了您认为的主题。您还可以使用不同的加权函数来获得所需的内容。手册是here。但如果您不确定自己在做什么,也请访问crossvalidated.com获取更多指导。这实际上是关于数据挖掘的问题,而不是关于编程的问题。

答案 1 :(得分:0)

我没有具体的代码,但我相信您要采用的方法是TF-IDF。这里解释:http://en.wikipedia.org/wiki/Tf%E2%80%93idf并且经常使用引用对文本进行分类。