如何用绳子训练sklearn。因此,当我将字符串输入到预测时,它预测当前我在尝试向DecisionTreeClassifier.predict添加字符串时它会说它无法转换为float。
答案 0 :(得分:0)
使用自然语言训练机器学习分类器的一种方法是使用 Bag of Words 技术。 Sklearn具有CountVectorizer函数来执行标记化。
来自文档:
为了解决这个问题,scikit-learn提供了从文本内容中提取数字特征的最常用方法的实用程序,即:
- 对每个可能的标记进行标记字符串并给出整数id,例如使用空格和标点符号作为标记分隔符。
- 计算每个文档中令牌的出现次数。 标准化和加权,大多数样本/文件中出现的重要性标记越来越少。
- 功能和样本定义如下:
- 每个令牌发生频率(标准化或未标准化)被视为特征。给定文档的所有令牌频率的向量被认为是多变量样本。