作为编程的初学者,我通过Scikit学习的机器学习实验对文本分类存在一些问题。我使用10倍交叉验证,因此在列车和测试数据中没有划分。
我的问题始于特征提取模块。这是带错误的代码:
vec = DictVectorizer()
X = vec.fit_transform(instances).toarray()
最后一行给出以下错误:
TypeError:float()参数必须是字符串或数字,而不是'dict'
Instances是一个特征向量字典列表,每个文档都有一个字典。实例列表开头的一个示例(您可以看到第一个文档的字典的一部分)。
答案 0 :(得分:1)
是的,问题在于您的嵌套字典功能向量。拆分它们并使它们成为独立的功能。