我正在处理Twitter的主题建模,以定义不规则Twitter用户的个人资料。我正在使用Gensim模块生成LDA模型。我的问题是选择好的输入数据。我想生成我分配给特定用户的主题。问题是关于输入数据。现在我正在使用一种有监督的方法来自己选择不同类别的用户(体育,IT,政治等),并将他们的推文放入模型中,但效率和效率都不高。
什么是产生整个Twitter有意义主题的好方法?
答案 0 :(得分:0)
以下是我在社交媒体公司工作时常常执行的一次分析。 假设你想要描述“体育”粉丝。 首先,使用Twitter API,下载一个着名体育手柄的所有粉丝,说“ESPN”。看起来像这样:
"ESPN": 51879246, #These are IDs who follow ESPN
2361734293,
778094964,
23000618,
2828513313,
2687406674,
2402689721,
2209802017,
然后您还下载51879246, 2361734293...
正在关注的所有句柄。那些“主题”将是您的特色。
现在您需要做的就是创建矩阵X,其大小与特征数量*跟随者数量相同。然后,只要关注者跟随特征词典中的特定主题(特征),就开始用1填充矩阵。
然后这里有简单的2行开始玩。
model = lda.LDA(n_topics=5, n_iter=1000, random_state=1)
model.fit(X)