使用正确的输入数据在Python中生成Twitter的良好LDA模型

时间:2016-09-19 09:49:46

标签: python twitter lda gensim topic-modeling

我正在处理Twitter的主题建模,以定义不规则Twitter用户的个人资料。我正在使用Gensim模块生成LDA模型。我的问题是选择好的输入数据。我想生成我分配给特定用户的主题。问题是关于输入数据。现在我正在使用一种有监督的方法来自己选择不同类别的用户(体育,IT,政治等),并将他们的推文放入模型中,但效率和效率都不高。

什么是产生整个Twitter有意义主题的好方法?

1 个答案:

答案 0 :(得分:0)

以下是我在社交媒体公司工作时常常执行的一次分析。 假设你想要描述“体育”粉丝。 首先,使用Twitter API,下载一个着名体育手柄的所有粉丝,说“ESPN”。看起来像这样:

       "ESPN": 51879246, #These are IDs who follow ESPN
              2361734293,
              778094964,
              23000618,
              2828513313,
              2687406674,
              2402689721,
              2209802017,

然后您还下载51879246, 2361734293...正在关注的所有句柄。那些“主题”将是您的特色。

现在您需要做的就是创建矩阵X,其大小与特征数量*跟随者数量相同。然后,只要关注者跟随特征词典中的特定主题(特征),就开始用1填充矩阵。

然后这里有简单的2行开始玩。

model = lda.LDA(n_topics=5, n_iter=1000, random_state=1)
model.fit(X)