我正在尝试使用来自语料库的nltk提取搭配,然后将它们的出现用作scikit-learn分类器的特征。 不幸的是我对nltk并不熟悉,我也没有看到一个简单的方法。 我到目前为止:
BigramCollocationFinder
提取搭配nltk.bigrams
)并检查它们是否是其中一个搭配TfidfVectorizer
这对我来说似乎过于复杂。此外,还有一个问题是,BigramCollactionFinder
有一个window_size
参数,用于跨越单词的双字母组。标准nltk.bigrams
提取不能做到这一点。
克服这种情况的一种方法是为每个文档实例化一个新的BigramCollocationFinder并再次提取bigrams并将它们与我之前找到的那些匹配......但同样,这似乎有点复杂。 当然,有一种更容易的方法,我忽略了。
感谢您的建议!
答案 0 :(得分:3)
larsmans已经为简单的非搭配功能提供了NLTK / scikit-learn特征映射器。这可能会为您自己的问题提供一些灵感: