我有一组带标签的文档,表示类别列表。标签是自由文本,并且具有不同的粒度级别。标签由文档的创建者分配。
例如:
Doc1: 'data science', 'python'
Doc2: 'business', 'microsoft', 'powerpoint'
Doc3: 'microsoft', 'excel'
Doc4: 'python'
Doc5: 'programming', 'python', 'java'
我想从中生成类别(单个或多个级别)。 3级内容如下:
business --> microsoft --> excel
business --> microsoft --> powerpoint
programming --> python
programming --> java
data science --> python
目前,我正在探索LDA技术的途径-但我觉得它失去了原始语料库中可用的一些信息。仅仅观察标签本身的分布就能获得这种效果吗?
在旁注中,每个文档还具有一个标题,可以用于分类,但是当前的标签似乎很好地捕捉了语义。
任何想法/建议都值得赞赏!