如何获得naivebayes-classifier最重要的功能名称?

时间:2019-01-06 16:02:03

标签: scikit-learn naivebayes

上下文:我确实有一个巨大的文本数据集(约70GB),可以用来预测某只股票的涨跌幅(标签:0和1),并且我想使用MultinomialNB-了解最重要的功能分类器。

我的想法是使用来自scikitlearn的HashingVectorizer创建文档项矩阵,以用于训练MulitnomialNB-classfier。这样,我固定了term-frequency表的大小,这可以防止出现内存问题。正常的CountVectorizer无效,因为桌子越来越大,直到我的精疲力尽为止。

之后,我可以向自己展示model.feature_log_prob_ / coef_

问题:有什么方法可以知道哪个哈希对应哪个model.feature_log_prob/coef_

如果是:我可以对它们进行排序并找出例如每个课程1000个最重要的哈希。在数据集的第二次迭代中,我可以记录1000个最重要散列列表中的哪个单词或哪个单词对应于哪个哈希。

0 个答案:

没有答案