我有一个csv文件,其中包含分类/标签行,后跟与之关联的数据:
cat, 0, 1, 45, 23, ...
dog, 1, 5, 75, 23, ...
cat, 3, 4, 63, 24, ...
cat, 0, 1, 44, 23, ...
dog, 7, 3, 25, 4, ...
如何将csv文件加载到sklearn?
编辑:或者我是否需要用等价的数字替换标签?即dog = 1,cat = 2等
答案 0 :(得分:2)
*根据Vivek的评论编辑
你可以使用熊猫。以下是将数据导入简单随机森林分类器的示例:
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
data = pd.read_csv('/path/to/data')
Y = data[[0]] # labels
X = data.drop([0], axis = 1) # features
clf = RandomForestClassifier()
clf.fit(X, Y)