我有一个文档集,预先标记了特定的主题/类别。这些类别是分层的,这意味着有3个主要类别和许多子类别。每个文档都标有一组类别。
所以,我有一个n
- n
文件大小列表 - 对于每个文档,我都有一组命名类别。
即
....
['M11', 'MCAT'],
['M13', 'M131', 'MCAT'],
['C15', 'C151', 'CCAT'],
['C24', 'CCAT'],
['C15', 'C152', 'CCAT'],
['GCAT'],
['C33', 'CCAT'],
....
我想绘制数据集的类别分布。意思是,我希望看到每个类别的数量以及与子类别的关系,当然还有每个类别的标题。但我不知道如何处理它。
我想象的是散点图,但这需要x/y
信息。或者可能是像尺寸编码的维恩图。但我的想法可能不适用于这种数据。
我将使用python,但随意提出任何建议。
有什么想法吗?