如何使用sci-kit分割单词学习DictVectorizer?

时间:2015-04-10 07:58:57

标签: scikit-learn

我有一个包含类字典记录的数据集。字典中的每个值都包含文本:

[{name: 'text one', feature_two: 'text two'}, ...]

通过使用DictVectorizer,我得到记录中每个值的全部内容所做的标记化,例如

{'name=text one': 1, 'feature_two=text two': 23, ...}

我想以这种方式将值分成值:

{'name=text': 1, 'name=one': 1, 'feature_two=two': 23, 'feature_two=text': 11 ...}

*数字是随机的,不介意它们

现在我正在做这样的事情:

file_path = 'myFile.csv'
all_data = list(csv.DictReader(open(file_path, 'rU')))

dataset = [ {'name': record['name'], 'feature': record['feature'] } for record in all_data ]
target = [record['y'] for record in all_data ]

vec = DictVectorizer()
xs = vec.fit_transform(dataset).toarray()

如何更改我的管道以获得我想要的东西?

0 个答案:

没有答案