用于主题检测的推文之间的表示和良好的相似性度量

时间:2013-02-06 10:06:50

标签: twitter machine-learning cluster-analysis information-retrieval topic-modeling

我打算在 Twitter 上编写一个主题检测工具。我一直在考虑两个推文之间的良好相似性度量(距离),以及如何表示它们,并计入:

  • #hashtags (我认为在Twitter上检测主题时主题标签非常重要)
  • 回复(如果有人回复推文,那些推文可以讨论相同的话题,虽然有两个人可以开始谈论三星galaxy < / em>并最终谈论 iphone jailbreaking 等。)

我正在考虑实施到目前为止所做的工作并进行一些实验。我将实现经典模型(如TF*IDF并使用欧几里德距离角度余弦等),以及具有一些相似性度量的布尔模型(汉明 Jaccard 等)。

有关如何将某些现有模型改编为 Twitter 的想法或有关如何创建新模型的一些想法?

1 个答案:

答案 0 :(得分:5)

Similarity Metrics on Twitter讨论了有关不同相似性度量的一些细节,您可以将它们用于将来自twitter的数据聚合在一起。我们根据用户连接,用户提及,地理位置,推文之间的内容相似性,用户描述之间的内容相似性以及常见的#hashtags,对Twitter上的用户进行了一些研究。

为了在Twitter上查找常见主题,找到讨论主题的用户之间的联系确实有帮助,我们发现用户群倾向于讨论共同主题。 this post的后半部分有一些细节。