Question

作为编程的初学者，我通过Scikit学习的机器学习实验对文本分类存在一些问题。我使用10倍交叉验证，因此在列车和测试数据中没有划分。

我的问题始于特征提取模块。这是带错误的代码：

vec = DictVectorizer() 
X = vec.fit_transform(instances).toarray()

最后一行给出以下错误：

TypeError：float（）参数必须是字符串或数字，而不是'dict'

Instances是一个特征向量字典列表，每个文档都有一个字典。实例列表开头的一个示例（您可以看到第一个文档的字典的一部分）。

某些功能是嵌套在特征向量字典中的字典。我不知道如何让它成为现实，但也许这就是问题所在？

Answer 1

是的，问题在于您的嵌套字典功能向量。拆分它们并使它们成为独立的功能。