我是scikit和使用文本数据的新手,我一直在使用sci-kit CountVectorizer作为开始习惯文本数据的基本功能(n-gram)但是我想扩展它以分析其他功能。
我更愿意调整计数器,而不是自己动手,因为那样我就不必重新实现sci-kits tf-idf变换器和分类器了。
编辑:
我实际上仍然在考虑具体功能,但对于我的项目,我想在文档之间进行样式分类。我知道,对于文本分类,lemmatizing和词干是特征提取的流行,因此可能是一个。我正在考虑分析的其他功能包括
这些是我想到的一些想法,但我想要测试更多功能!
答案 0 :(得分:1)
您可以轻松扩展类的扩展(您可以看到source of it here)并实现您需要的功能。但是,这取决于你想做什么,这在你的问题中不是很清楚。
答案 1 :(得分:1)
您是否在询问如何实施您在scikit-learn兼容变压器方面列出的功能?然后可以查看developer docs,特别是rolling your own estimator。
您可以继承BaseEstimator并实施fit
和transform
。但是,只有在想要使用流水线操作时才需要这样做。对于使用sklearn分类器和tfidf变换器,只需要您的特征提取创建numpy数组或scipy稀疏矩阵。