我有一个包含类字典记录的数据集。字典中的每个值都包含文本:
[{name: 'text one', feature_two: 'text two'}, ...]
通过使用DictVectorizer,我得到记录中每个值的全部内容所做的标记化,例如
{'name=text one': 1, 'feature_two=text two': 23, ...}
我想以这种方式将值分成值:
{'name=text': 1, 'name=one': 1, 'feature_two=two': 23, 'feature_two=text': 11 ...}
*数字是随机的,不介意它们
现在我正在做这样的事情:
file_path = 'myFile.csv'
all_data = list(csv.DictReader(open(file_path, 'rU')))
dataset = [ {'name': record['name'], 'feature': record['feature'] } for record in all_data ]
target = [record['y'] for record in all_data ]
vec = DictVectorizer()
xs = vec.fit_transform(dataset).toarray()
如何更改我的管道以获得我想要的东西?