使用nltk搭配作为scikit-learn中的功能

时间:2012-09-11 15:20:51

标签: nlp nltk text-processing scikit-learn feature-extraction

我正在尝试使用来自语料库的nltk提取搭配,然后将它们的出现用作scikit-learn分类器的特征。 不幸的是我对nltk并不熟悉,我也没有看到一个简单的方法。 我到目前为止:

  • 使用来自语料库的BigramCollocationFinder提取搭配
  • 对于每个文档,提取所有bigrams(使用nltk.bigrams)并检查它们是否是其中一个搭配
  • 使用不执行任何操作的分析器创建TfidfVectorizer
  • 以提取的双字母组的形式提供文件

这对我来说似乎过于复杂。此外,还有一个问题是,BigramCollactionFinder有一个window_size参数,用于跨越单词的双字母组。标准nltk.bigrams提取不能做到这一点。

克服这种情况的一种方法是为每个文档实例化一个新的BigramCollocationFinder并再次提取bigrams并将它们与我之前找到的那些匹配......但同样,这似乎有点复杂。 当然,有一种更容易的方法,我忽略了。

感谢您的建议!

1 个答案:

答案 0 :(得分:3)

larsmans已经为简单的非搭配功能提供了NLTK / scikit-learn特征映射器。这可能会为您自己的问题提供一些灵感:

http://nltk.org/_modules/nltk/classify/scikitlearn.html