scikit-learn,为矢量化文档集添加功能

时间:2013-03-06 20:47:12

标签: python machine-learning nlp scikit-learn

我开始使用scikit-learn,我正在尝试将一组文档转换为可以应用聚类和分类的格式。我已经看到了有关矢量化方法的详细信息,以及用于加载文件和索引其词汇表的tfidf转换。

但是,我为每个文档都有额外的元数据,例如作者,负责的部门,主题列表等。

如何为向量化函数生成的每个文档向量添加功能?

1 个答案:

答案 0 :(得分:9)

您可以使用DictVectorizer作为额外的分类数据,然后使用scipy.sparse.hstack进行组合。