在哪里可以找到分类因变量的监督分类机器学习示例?
例如:
蜥蜴作为昆虫,苍蝇作为昆虫,蚊子作为昆虫,猴子作为哺乳动物,熊作为哺乳动物,鲨鱼作为鱼,孔雀鱼作为鱼,芬兰作为国家,美国作为国家,日本作为国家, Apple Inc as Company,Berkshire Hathaway Inc as Company,Merck& Co.,Inc作为公司........
我已经学习了Udemy机器学习A-Z,并且所教授的所有场景仅适用于2个因变量(是或否,1或0)。任何人都知道我在哪里可以找到Python代码或学习如何将文本分类到国家,公司,昆虫等,即。超过2个因变量?
由于
@David Dale,我试过了:
import numpy as np
import pandas as pd
dataset = pd.read_csv('Test31Oct17.csv')
X = dataset.iloc[:, 0].values
y = dataset.iloc[:, 1].values
from sklearn import datasets
from sklearn.multiclass import OneVsOneClassifier
from sklearn.svm import LinearSVC
OneVsOneClassifier(LinearSVC(random_state=0)).fit(X, y).predict(X)`
它不起作用。它说 ValueError:无法将字符串转换为float:'14fl。,no.66,san-chung rd。,nangang dist'
对于y,我将所有分类改为1,2,3,4 ......而不是鱼,国家,哺乳动物等
答案 0 :(得分:0)
UCI Machine Learning Repository应该为您提供大量示例,您可以在那里搜索超过2个类别的分类问题。
答案 1 :(得分:0)
如果我理解正确,你不会问关于多个因变量,而是关于一个MULTICLASS因变量。
许多ML算法(从逻辑回归到决策树及其集合)自然支持多类分类。其他基本形式的算法(如SVM)无法处理多类问题。但是,几个这样的二进制模型可以以一对一或一对一方式聚合。
例如,scikit-learn supports多类分类,甚至更困难的情况 - 多标签和多任务分类(是的,它们都是不同的问题)。