应用错误收集

上下文：我确实有一个巨大的文本数据集（约70GB），可以用来预测某只股票的涨跌幅（标签：0和1），并且我想使用MultinomialNB-了解最重要的功能分类器。

我的想法是使用来自scikitlearn的HashingVectorizer创建文档项矩阵，以用于训练MulitnomialNB-classfier。这样，我固定了term-frequency表的大小，这可以防止出现内存问题。正常的CountVectorizer无效，因为桌子越来越大，直到我的精疲力尽为止。

之后，我可以向自己展示model.feature_log_prob_ / coef_。

问题：有什么方法可以知道哪个哈希对应哪个model.feature_log_prob/coef_？

如果是：我可以对它们进行排序并找出例如每个课程1000个最重要的哈希。在数据集的第二次迭代中，我可以记录1000个最重要散列列表中的哪个单词或哪个单词对应于哪个哈希。

如何获得naivebayes-classifier最重要的功能名称？

0 个答案: