标签: machine-learning scikit-learn topic-modeling
训练集:
text Topics sentense1 [A,B,C,D] sentence2 [dhd,B,W,A,Q,G,WE,ffjeij,as] sentence3 [Z,AA,RF,Q,H,P,H,A,Y]
我的训练集中有4M行,实际上,这句话是一篇文章
主题总数约10k
现在对于给定的文章,我必须预测主题。主题数可以从0到1万不等
我是ML的新手,我无法考虑多标签分类如何处理10K主题。请指导解决此问题。
我主要对准确性感兴趣。