我的培训数据文件的格式是什么?

时间:2017-08-28 12:43:59

标签: python pandas machine-learning

我是Python和机器学习的新手。我有这个数据file,我想要应用二进制分类。但我无法猜测它的格式并在Python中加载它。有人可以帮帮我吗?

在数据集中,第一列是类,有100个功能。我正在使用pandas IO加载它,并尝试read_csv,但它无法正常工作!而且它绝对不是JSON。 (而且到现在为止我只使用过这些格式,如果它是一些众所周知的格式,请提前原谅我!)

2 个答案:

答案 0 :(得分:0)

它是纯文本文件。通过查看第一行,它看起来像libsvm格式。 请参阅this以获取参考。

答案 1 :(得分:0)

您可以尝试sklearn.datasets.load_svmlight_file来阅读该文件。

以下是文档链接中有关如何使用该方法的示例:

from sklearn.externals.joblib import Memory
from sklearn.datasets import load_svmlight_file
mem = Memory("./mycache")

@mem.cache
def get_data():
    data = load_svmlight_file("mysvmlightfile")
    return data[0], data[1]

X, y = get_data()