假设我有一些多类文本/会话分类器(朴素的贝叶斯等),我想找到对分类很重要的文本模式。我最好如何找到这些文字模式?这背后的动机是你可以使用这些模式来更好地理解分类背后的过程。
模式被定义为一组({多)单词s={w1, ... , wn}
,该模式具有每个类c - P(c|s)
的类概率 - 由分类器推断。如果推断概率很高,那么模式就很重要(局部最大值,前n个,类似的东西)。
现在,在您正在查看的数据集中对部分文本运行分类器不会是一个问题。然而,这些模式不一定是自然语句或类似的东西,而是词汇表的任何(多个)子集。然后,您正在考虑在词汇表的所有(多个)子集上运行分类,这在计算上是不现实的。
我认为可行的方法是使用启发式搜索算法(例如爬山)搜索文本空间,以最大化某个类的可能性。您可以从不同的初始条件中多次运行hillclimber,然后将前10个左右的独特结果作为模式。
这是一个好方法,还是更好的方法?感谢您的任何建议。