超过2个因变量的监督机器学习分类示例

时间:2017-10-31 16:03:02

标签: machine-learning

在哪里可以找到分类因变量的监督分类机器学习示例?

例如:

蜥蜴作为昆虫,苍蝇作为昆虫,蚊子作为昆虫,猴子作为哺乳动物,熊作为哺乳动物,鲨鱼作为鱼,孔雀鱼作为鱼,芬兰作为国家,美国作为国家,日本作为国家, Apple Inc as Company,Berkshire Hathaway Inc as Company,Merck& Co.,Inc作为公司........

我已经学习了Udemy机器学习A-Z,并且所教授的所有场景仅适用于2个因变量(是或否,1或0)。任何人都知道我在哪里可以找到Python代码或学习如何将文本分类到国家,公司,昆虫等,即。超过2个因变量?

由于

@David Dale,我试过了:

import numpy as np
import pandas as pd

dataset = pd.read_csv('Test31Oct17.csv')
X = dataset.iloc[:, 0].values
y = dataset.iloc[:, 1].values

from sklearn import datasets
from sklearn.multiclass import OneVsOneClassifier
from sklearn.svm import LinearSVC
OneVsOneClassifier(LinearSVC(random_state=0)).fit(X, y).predict(X)`

它不起作用。它说 ValueError:无法将字符串转换为float:'14fl。,no.66,san-chung rd。,nangang dist'

对于y,我将所有分类改为1,2,3,4 ......而不是鱼,国家,哺乳动物等

2 个答案:

答案 0 :(得分:0)

UCI Machine Learning Repository应该为您提供大量示例,您可以在那里搜索超过2个类别的分类问题。

答案 1 :(得分:0)

如果我理解正确,你不会问关于多个因变量,而是关于一个MULTICLASS因变量

许多ML算法(从逻辑回归到决策树及其集合)自然支持多类分类。其他基本形式的算法(如SVM)无法处理多类问题。但是,几个这样的二进制模型可以以一对一一对一方式聚合。

例如,scikit-learn supports多类分类,甚至更困难的情况 - 多标签和多任务分类(是的,它们都是不同的问题)。