应用错误收集

我是主题建模的新手。

所以我希望有经验的人可以回答我的疑问。这是我的数据的简化格式： 1.我有一个维度为1000 * 2的csv文件。（主题的混合） 2.每行是文档和文档ID。每个文档可以有多行，文档可以像：例如 - 电影是关于哈利波特。我喜欢看。

因此，我想从主题模型中找到自然聚类/主题，并根据TOP术语手动将标签分配给聚类。

因此，我将每个文档分解为单个令牌并使用LDA，然后使用最低的困惑得分来获得最佳群集。

使用LDA后，我为每个主题绘制了最常出现的术语的可视化。

然而，我不确定我是否应该做bi / n克 - 如果是这样的话怎么办？因为我知道有些条款必须一起出现。 2.我是否必须使用网络图来查看不同的术语如何相互关联？或者不同主题链接在一起？ 3.不太确定我是否采取正确的方式