我有超过10万个带有报纸问题的.txt文件,我需要定义保护主义的词汇领域。但是,报纸的议题涉及非常广泛的主题,我不知道主题的总数。我是否仍可以使用LDA主题建模来查找词汇领域,或者还有另一种方法(也许是监督学习)?
答案 0 :(得分:0)
您也许可以,但是请看一下这个CorEx 的想法。这非常有效,您可以通过提供一组定位词来指导小组(因此您可以将其称为半监督学习)。
您可以将其[[保护主义],[关税],[贸易战],...]作为一个主题的先例,甚至可以尝试将与您感兴趣的主题无关的文章拖入第二个主题通过定义与主题无关的词来定义主题[“警察保护”,“自定义功能”,...]
提供的笔记本非常好,可以让您立即启动并运行