最快的计数矢量化器实现

时间:2014-11-12 23:08:33

标签: python machine-learning nlp scikit-learn vectorization

我正在寻找比scikit-learn CountVectorizer更有效的n-gram计数矢量化的实现。我已经将CountVectorizer.transform()调用确定为一些软件的巨大瓶颈,并且如果我们能够使这部分管道更高效,则可以大大提高模型吞吐量。适合时间并不重要,我们只关心转换时间。结束输出必须是scipy.sparse向量。如果任何人有潜在的替代品的任何线索,将非常感激。

1 个答案:

答案 0 :(得分:4)

你试过HashingVectorizer吗?它的速度稍快(如果我没记错的话,最多可达2倍)。下一步是分析代码,删除您不使用的CountVectorizerHashingVectorizer的功能,并在优化的Cython代码中重写其余部分(再次进行分析后)。

默认情况下,Vowpal Wabbit的裸骨功能处理使用散列技巧可能会给你一些可以实现的功能。