CountVectorizer无法处理输入文本

时间:2017-02-08 15:40:10

标签: python-3.x scikit-learn pos-tagger countvectorizer

我有一组列出的数据如下图所示。元素是语音标记的一部分。

[('NNS', 'MD', 'VB', 'DT', 'NNS', 'IN', 'JJ', 'NN', ',', 'VBG', 'JJ', 'NNS', 'JJ', 'IN', '.'), ('NNS', 'CC', 'NN', ',', 'RB', 'RB', 'IN', 'JJ', 'NNS', 'IN', 'WDT', 'PRP', 'VBZ', 'NN'), ('PRP', 'MD', 'VB', 'PRP', 'RB', 'IN', 'DT', 'NNS', 'VBG', 'DT', 'NNS', 'IN', 'PRP$', 'NN', '.'), ('NNS', 'VBP', 'JJ', 'TO', 'VB', 'NN', 'NNS', 'CC', 'JJ', 'NN', 'NN', 'IN', 'NN', 'CC', 'NN', '.'), ('JJ', 'NNS', 'MD', 'VB', 'JJ', 'JJ', 'JJ', 'NN', 'IN', 'NNS', '.'), ('DT', 'NNS', 'MD', 'VB', 'NN', 'CC', 'JJ', 'NN', 'NN', 'IN', 'DT', 'NN'), ('DT', 'NNS', 'MD', 'VB', 'PRP$', 'NN', 'NN', 'CC', 'JJ', 'NN', 'NNS', '.'), ('RB', 'VB', 'VBN', 'IN', 'NN', 'CC', 'MD', 'VB', 'TO', 'VB', 'PRP$', 'NN', '.'), ('PRP', 'VBP', 'NNS', 'IN', 'VBG', 'NNS', 'IN', 'NNS', 'CC', 'NNS', '.'), ('DT', 'NNS', 'MD', 'VB', 'PRP$', 'NN', 'NNS', 'IN', 'NN', 'CC', 'NN', 'IN', 'DT', 'NNS', ',', '.'), ('PRP', 'TO', 'VB', 'NNS', 'TO', 'PRP$', 'NN', 'NNS', 'VBG', 'IN', 'PDT', 'PRP$', 'NNS', 'CC', '.'), ('NNS', 'NNS', 'CC', 'VB', 'DT', 'IN', 'PRP$', 'NNS', 'IN', 'NN', 'CC', 'IN', 'DT', 'JJ', 'NN', '.'), ('NNS', 'TO', 'VB', 'JJ', 'WRB', 'VBG', 'IN', 'CC', 'IN', '.'), ('PRP', 'VBP', 'NNS', 'TO', 'VB', 'DT', 'JJ', ',', 'JJ', 'CC', 'JJ', 'NNS', 'WDT', 'MD', 'VB', 'PRP$', '.'), ('NN', 'CC', 'NN', 'TO', 'VB', 'PRP$', 'NN', 'NNS', '.'), ('PRP', 'MD', 'VB', 'RB', 'TO', 'VB', 'DT', 'NN', 'CC', '.'), ('JJ', 'NNS', 'TO', 'DT', 'NN', 'IN', 'PRP$', 'NNS', '.')]

现在我做的时候:

vectorizer = CountVectorizer(analyzer='word',ngram_range=(2,4))
vectorizer.fit(train_set)

我收到此错误:

AttributeError: 'tuple' object has no attribute 'lower'

我没有看到我的列车设置了任何元组。据我所知,这是列表,不是吗?

任何帮助将不胜感激;)

0 个答案:

没有答案