使用python的sklearn模块和自定义数据集

时间:2019-11-22 08:52:20

标签: python node.js scikit-learn decision-tree

我以前从未使用过python,我迫切需要在我的node.js项目中使用sklearn模块进行机器学习。

我整天试图理解上述模块中的代码示例,现在我有点理解它们的工作原理,不知道如何使用自己的数据集。

每个内置数据集都有其自己的功能(load_irisload_wineload_breast_cancer等),它们都从.csv和.rst文件加载数据。我找不到允许我加载自己的数据集的函数。 (有一个load_data函数,但似乎是我前面提到的三个函数的内部使用,因为我不能import它使用)

我该怎么做?将sklearn与其他任何数据集一起使用的正确方法是什么?是否始终必须是.csv文件?可以通过编程方式提供数据(数组,对象等)吗?

如果很重要:所有这些内置数据集都具有数字功能,我的数据集同时具有数字和字符串功能,可在决策树中使用。

谢谢

1 个答案:

答案 0 :(得分:1)

您可以加载所需的任何内容,然后使用sklearn模型。

如果您有一个.csv文件,pandas将是最好的选择。

import pandas as pd

mydataset = pd.read_csv("dataset.csv")

X = mydataset.values[:,0:10] # let's assume that the first 10 columns are the features/variables
y = mydataset.values[:,11] # let's assume that the 11th column has the target values/classes
...
sklearn_model.fit(X,y)

您可以加载.txt.xls文件。

要使用sklearn模型,重要的是:

  • X应该始终是形状为[n_samples,n_variables]的2D数组
  • y应该是目标变量。