我是数据挖掘和实验的新手。
假设我有N个推特用户和我想找的东西 是他们写的总体主题(基于推文) 然后,如果该用户拥有更高的粉丝,我想为每个主题赋予更高的权重。
然后我想合并所有主题,如果有足够的相似但仍然 通过推特计数保留权重。
所以基本上是按权限排列的“重要”主题列表(用户的推特计数)
例如,像news.google.com,但排名将基于负责主题的推特粉丝。
我更喜欢python中的东西,因为那是我最熟悉的语言。
有什么想法吗?
由于
编辑: 这是我正在尝试做的一个很好的例子(但是有差异数据) http://www.facebook.com/notes/facebook-data-team/whats-on-your-mind/477517358858
基本上分析各种数据及其相互关系:工作类别和每个人的年龄,单词类别和朋友数量,如本例所示。
我将从哪里开始解决此问题并生成此类图表?
答案 0 :(得分:4)
一般来说:R有一些专门针对文本挖掘和数据挖掘的软件包,提供了广泛的技术。我不知道Python中的那种软件包,但这并不意味着它们不存在。我只是不会自己实现它,它比它第一眼看上去要复杂一点。
你必须考虑的一些事情:
如果您对此有一般性的了解,可以开始使用tm package以可行的格式提取所有信息。该包基于矩阵和元数据对象。这些允许您获得不同主题的加权频率,前提是您已定义了您认为的主题。您还可以使用不同的加权函数来获得所需的内容。手册是here。但如果您不确定自己在做什么,也请访问crossvalidated.com获取更多指导。这实际上是关于数据挖掘的问题,而不是关于编程的问题。
答案 1 :(得分:0)
我没有具体的代码,但我相信您要采用的方法是TF-IDF。这里解释:http://en.wikipedia.org/wiki/Tf%E2%80%93idf并且经常使用引用对文本进行分类。