我是主题建模的新手。
所以我希望有经验的人可以回答我的疑问。 这是我的数据的简化格式: 1.我有一个维度为1000 * 2的csv文件。 (主题的混合) 2.每行是文档和文档ID。 每个文档可以有多行,文档可以像:例如 - 电影是关于哈利波特。我喜欢看。
因此,我想从主题模型中找到自然聚类/主题,并根据TOP术语手动将标签分配给聚类。
因此,我将每个文档分解为单个令牌并使用LDA,然后使用最低的困惑得分来获得最佳群集。
使用LDA后,我为每个主题绘制了最常出现的术语的可视化。
然而, 我不确定我是否应该做bi / n克 - 如果是这样的话怎么办?因为我知道有些条款必须一起出现。 2.我是否必须使用网络图来查看不同的术语如何相互关联?或者不同主题链接在一起? 3.不太确定我是否采取正确的方式