是否有可能使sci-kit CountVectorizer适应其他功能(不仅仅是n-gram)?

时间:2015-04-22 17:55:14

标签: python scikit-learn classification feature-extraction

我是scikit和使用文本数据的新手,我一直在使用sci-kit CountVectorizer作为开始习惯文本数据的基本功能(n-gram)但是我想扩展它以分析其他功能。

我更愿意调整计数器,而不是自己动手,因为那样我就不必重新实现sci-kits tf-idf变换器和分类器了。

编辑:

我实际上仍然在考虑具体功能,但对于我的项目,我想在文档之间进行样式分类。我知道,对于文本分类,lemmatizing和词干是特征提取的流行,因此可能是一个。我正在考虑分析的其他功能包括

  • 每种文字中每个文件的句子长度
  • 每种风格的鲜明字样。更正式的风格可能具有更有说服力和变化的词汇
    • 前一点的分支,但特别是形容词的数量
  • 特定单词的长度,俚语可能会使用比正式样式短得多的短语
  • 标点符号,特别是语句之间标记的暂停,语句长度

这些是我想到的一些想法,但我想要测试更多功能!

2 个答案:

答案 0 :(得分:1)

您可以轻松扩展类的扩展(您可以看到source of it here)并实现您需要的功能。但是,这取决于你想做什么,这在你的问题中不是很清楚。

答案 1 :(得分:1)

您是否在询问如何实施您在scikit-learn兼容变压器方面列出的功能?然后可以查看developer docs,特别是rolling your own estimator

您可以继承BaseEstimator并实施fittransform。但是,只有在想要使用流水线操作时才需要这样做。对于使用sklearn分类器和tfidf变换器,只需要您的特征提取创建numpy数组或scipy稀疏矩阵。