Question

我以前从未使用过python，我迫切需要在我的node.js项目中使用sklearn模块进行机器学习。

我整天试图理解上述模块中的代码示例，现在我有点理解它们的工作原理，不知道如何使用自己的数据集。

每个内置数据集都有其自己的功能（load_iris，load_wine，load_breast_cancer等），它们都从.csv和.rst文件加载数据。我找不到允许我加载自己的数据集的函数。（有一个load_data函数，但似乎是我前面提到的三个函数的内部使用，因为我不能import它使用）

我该怎么做？将sklearn与其他任何数据集一起使用的正确方法是什么？是否始终必须是.csv文件？可以通过编程方式提供数据（数组，对象等）吗？

如果很重要：所有这些内置数据集都具有数字功能，我的数据集同时具有数字和字符串功能，可在决策树中使用。

谢谢

Answer 1

您可以加载所需的任何内容，然后使用sklearn模型。

如果您有一个.csv文件，pandas将是最好的选择。

import pandas as pd

mydataset = pd.read_csv("dataset.csv")

X = mydataset.values[:,0:10] # let's assume that the first 10 columns are the features/variables
y = mydataset.values[:,11] # let's assume that the 11th column has the target values/classes
...
sklearn_model.fit(X,y)

您可以加载.txt或.xls文件。

要使用sklearn模型，重要的是：

X应该始终是形状为[n_samples，n_variables]的2D数组
y应该是目标变量。

使用python的sklearn模块和自定义数据集

1 个答案: