属性值为字符串的数据分类

时间:2015-11-23 21:37:39

标签: python scikit-learn classification text-mining feature-extraction

我有一个带有7个属性和大约80,000行的标签数据集。但是,其中3个属性包含超过50%的缺失数据。我过滤了数据以忽略具有任何空值的行,这给我留下了大约30,000行完整数据。每个属性的值的格式是字符串,如"这是属性i的实例的值。"所需的输出(标签)是二进制(0或1),并且每个实例都有一个标签。我想训练一个分类器来预测测试集上的所需输出。我正在使用Python和sklearn,并坚持如何从这个数据集中提取特征。任何建议将不胜感激。感谢

0 个答案:

没有答案