将csv中的标签和数据加载到sklearn中

时间:2018-04-30 23:04:00

标签: python python-2.7 scikit-learn

我有一个csv文件,其中包含分类/标签行,后跟与之关联的数据:

  cat, 0, 1, 45, 23, ...
  dog, 1, 5, 75, 23, ...
  cat, 3, 4, 63, 24, ...
  cat, 0, 1, 44, 23, ...
  dog, 7, 3, 25, 4, ...

如何将csv文件加载到sklearn?

编辑:或者我是否需要用等价的数字替换标签?即dog = 1,cat = 2等

1 个答案:

答案 0 :(得分:2)

*根据Vivek的评论编辑

你可以使用熊猫。以下是将数据导入简单随机森林分类器的示例:

import pandas as pd
from sklearn.ensemble import RandomForestClassifier

data = pd.read_csv('/path/to/data')

Y = data[[0]]  # labels
X = data.drop([0], axis = 1)  # features

clf = RandomForestClassifier()
clf.fit(X, Y)