上下文:我确实有一个巨大的文本数据集(约70GB),可以用来预测某只股票的涨跌幅(标签:0和1),并且我想使用MultinomialNB-了解最重要的功能分类器。
我的想法是使用来自scikitlearn的HashingVectorizer创建文档项矩阵,以用于训练MulitnomialNB-classfier。这样,我固定了term-frequency表的大小,这可以防止出现内存问题。正常的CountVectorizer无效,因为桌子越来越大,直到我的精疲力尽为止。
之后,我可以向自己展示model.feature_log_prob_
/ coef_
。
问题:有什么方法可以知道哪个哈希对应哪个model.feature_log_prob/coef_
?
如果是:我可以对它们进行排序并找出例如每个课程1000个最重要的哈希。在数据集的第二次迭代中,我可以记录1000个最重要散列列表中的哪个单词或哪个单词对应于哪个哈希。