例如:我有100本书,每本1000字。他们属于不同的类别(喜剧,戏剧,......)。每个班级由15本不同的书组成。 当我对我的数据进行评估时,我会在所有书籍的背景下得到书中每个单词的重要性。 我看到属于同一类的书籍对每个变量都有相似的tfidf值。
让我们说戏剧和喜剧非常相似。 我如何判断哪两个词在这两个类之间有所区别? 我有什么话要改变属于喜剧的书,所以这本书现在属于戏剧了吗?
我可以逐一检查;但我有2000本书,每本17500字; 950班。这将需要十年时间:))
答案 0 :(得分:1)
作为初稿,计算每个类的平均向量,将它们标准化为单位长度,并计算绝对差值。
这些应该可以粗略地说明哪些词区分了两个类。
答案 1 :(得分:0)
我肯定会运行成对测试,即对于每个475 * 949对类中的一个,因为“重要变量”可能因情况而异。然后运行一些标准的特征选择算法,如卡方或信息增益。有关广泛的研究,请参阅http://www.jmlr.org/papers/volume3/forman03a/forman03a.pdf。