火车与字符串的sklearn树

时间:2018-02-25 15:08:09

标签: python scikit-learn

如何用绳子训练sklearn。因此,当我将字符串输入到预测时,它预测当前我在尝试向DecisionTreeClassifier.predict添加字符串时它会说它无法转换为float。

1 个答案:

答案 0 :(得分:0)

使用自然语言训练机器学习分类器的一种方法是使用 Bag of Words 技术。 Sklearn具有CountVectorizer函数来执行标记化。

来自文档:

  

为了解决这个问题,scikit-learn提供了从文本内容中提取数字特征的最常用方法的实用程序,即:

     
      
  • 对每个可能的标记进行标记字符串并给出整数id,例如使用空格和标点符号作为标记分隔符。      
        
    • 计算每个文档中令牌的出现次数。   标准化和加权,大多数样本/文件中出现的重要性标记越来越少。
    •   
    • 功能和样本定义如下:
    •   
    • 每个令牌发生频率(标准化或未标准化)被视为特征。给定文档的所有令牌频率的向量被认为是多变量样本。
    •   
  •