应用错误收集

我有一个包含类字典记录的数据集。字典中的每个值都包含文本：

[{name: 'text one', feature_two: 'text two'}, ...]

通过使用DictVectorizer，我得到记录中每个值的全部内容所做的标记化，例如

{'name=text one': 1, 'feature_two=text two': 23, ...}

我想以这种方式将值分成值：

{'name=text': 1, 'name=one': 1, 'feature_two=two': 23, 'feature_two=text': 11 ...}

*数字是随机的，不介意它们

现在我正在做这样的事情：

file_path = 'myFile.csv'
all_data = list(csv.DictReader(open(file_path, 'rU')))

dataset = [ {'name': record['name'], 'feature': record['feature'] } for record in all_data ]
target = [record['y'] for record in all_data ]

vec = DictVectorizer()
xs = vec.fit_transform(dataset).toarray()

如何更改我的管道以获得我想要的东西？

如何使用sci-kit分割单词学习DictVectorizer？

0 个答案: