我以前从未使用过python,我迫切需要在我的node.js项目中使用sklearn模块进行机器学习。
我整天试图理解上述模块中的代码示例,现在我有点理解它们的工作原理,不知道如何使用自己的数据集。
每个内置数据集都有其自己的功能(load_iris
,load_wine
,load_breast_cancer
等),它们都从.csv和.rst文件加载数据。我找不到允许我加载自己的数据集的函数。 (有一个load_data
函数,但似乎是我前面提到的三个函数的内部使用,因为我不能import
它使用)
我该怎么做?将sklearn与其他任何数据集一起使用的正确方法是什么?是否始终必须是.csv文件?可以通过编程方式提供数据(数组,对象等)吗?
如果很重要:所有这些内置数据集都具有数字功能,我的数据集同时具有数字和字符串功能,可在决策树中使用。
谢谢
答案 0 :(得分:1)
您可以加载所需的任何内容,然后使用sklearn
模型。
如果您有一个.csv
文件,pandas
将是最好的选择。
import pandas as pd
mydataset = pd.read_csv("dataset.csv")
X = mydataset.values[:,0:10] # let's assume that the first 10 columns are the features/variables
y = mydataset.values[:,11] # let's assume that the 11th column has the target values/classes
...
sklearn_model.fit(X,y)
您可以加载.txt
或.xls
文件。
要使用sklearn模型,重要的是:
X
应该始终是形状为[n_samples,n_variables]的2D数组y
应该是目标变量。