Question

我有一个csv文件，其中包含分类/标签行，后跟与之关联的数据：

  cat, 0, 1, 45, 23, ...
  dog, 1, 5, 75, 23, ...
  cat, 3, 4, 63, 24, ...
  cat, 0, 1, 44, 23, ...
  dog, 7, 3, 25, 4, ...

如何将csv文件加载到sklearn？

编辑：或者我是否需要用等价的数字替换标签？即dog = 1，cat = 2等

Answer 1

*根据Vivek的评论编辑

你可以使用熊猫。以下是将数据导入简单随机森林分类器的示例：

import pandas as pd
from sklearn.ensemble import RandomForestClassifier

data = pd.read_csv('/path/to/data')

Y = data[[0]]  # labels
X = data.drop([0], axis = 1)  # features

clf = RandomForestClassifier()
clf.fit(X, Y)

将csv中的标签和数据加载到sklearn中

1 个答案: