应用错误收集

时间：2015-03-31 09:21:15

标签： statistics nlp data-mining

例如：我有100本书，每本1000字。他们属于不同的类别（喜剧，戏剧，......）。每个班级由15本不同的书组成。当我对我的数据进行评估时，我会在所有书籍的背景下得到书中每个单词的重要性。我看到属于同一类的书籍对每个变量都有相似的tfidf值。

让我们说戏剧和喜剧非常相似。我如何判断哪两个词在这两个类之间有所区别？我有什么话要改变属于喜剧的书，所以这本书现在属于戏剧了吗？

我可以逐一检查;但我有2000本书，每本17500字; 950班。这将需要十年时间:)）

答案 0 :(得分：1)

作为初稿，计算每个类的平均向量，将它们标准化为单位长度，并计算绝对差值。

这些应该可以粗略地说明哪些词区分了两个类。

答案 1 :(得分：0)

我肯定会运行成对测试，即对于每个475 * 949对类中的一个，因为“重要变量”可能因情况而异。然后运行一些标准的特征选择算法，如卡方或信息增益。有关广泛的研究，请参阅http://www.jmlr.org/papers/volume3/forman03a/forman03a.pdf。