使用shogun工具箱加载数据

时间:2018-02-04 15:19:43

标签: python shogun

我正在尝试使用幕府将军工具箱,以便将this dataset中的人归类为淹死与否。

我想使用诸如CFIle,LibSVMFile,SparseRealFeatures等shogun引擎......如shogun introduction中提到的那样但是我被卡住了。

首先,在本简介中,您以该格式加载直接一个LibSVMFile,但是,autor没有提到他们如何从CSV格式生成数据文件(这是原始格式的他使用的数据集)...

由于我没有所需格式的数据集,我尝试使用CFile类加载我的数据集,甚至更好地加载CCSVFile类,但我得到了

NameError: name 'CFile' is not defined

NameError: name 'CCSVFile' is not defined

(我在Ubuntu 17.10中使用从源代码编译的Python3,并使用“来自shogun import *”导入所有shogun)

然而,当我使用

data_file=LibSVMFile(os.path.join(SHOGUN_DATA_DIR, 'train.csv'))

在示例中,没有关于非定义类的错误但是 正如预期的那样,它退化了:

[1]    8870 segmentation fault (core dumped)  python3 titanic.py

我想知道使用这个幕府将军引擎加载数据集的正确方法是什么......

在其他shogun笔记本中,他们没有使用它们,只是使用其他库加载数据集,我开始认为是最好的方法。

1 个答案:

答案 0 :(得分:0)

要读取CSV文件,您应该运行以下命令(在python中):

import shogun as sg
train_csv = sg.CSV("train.csv")

但请注意,该文件包含许多需要编码的分类,因此首先应该在实际尝试在shogun模型中使用它之前进行一些数据修改。