Python API加载各种机器学习数据集?

时间:2011-06-12 10:31:44

标签: python api machine-learning

是否有人使用Python API来获取各种ML数据集

X, Y, info = mldata.load( name, db=, verbose= )
X: N x dim data, a NumPy array
Y: N, ints for class numbers or None
info: a dict with ...

我更喜欢使用NumPy进行直接python, 但如果Rpy函数可以获取数据,那可能没问题 (对不起,不要多说R)。

对于“db”,平面文件没问题,比如

#! http://archive.ics.uci.edu/ml/machine-learning-databases
# ncol  nrow  nclass  year  name               etc.
  3  2858  2  2008   "Character+Trajectories"  Time-Series     Classification, Clus
  4   150  2  1988   "Iris"    Multivariate    Classification  Real
  8   768  2  1990   "Pima+Indians+Diabetes"   Multivariate    Classification  Inte
...

为什么只是平面文件而不是“真正的”dbs? 因为我可以下载一次,然后用近乎努力的方式浏览,排序,唤醒它们; 其他人可能更喜欢花哨的搜索引擎。

无论是本地存储数据还是通过网络加载数据对我来说都是无关紧要的。 (两者兼而有之,env MLDATAPATH =(local dir ... url ...))?

(对于具有统一名称和统一数据的网站,基本API应该是微不足道的, 但是均匀化,例如uci / ml看起来非常沉闷。)

2 个答案:

答案 0 :(得分:1)

来自Scikits.learn的人在Scikits.learn examples

中解决了这个问题

数据集有各种形状和大小,因此它们有自定义代码来处理每个数据集。 (如果您只有CSV或ARFF格式的数据集而不是灰度图像等等,那将会有所不同。)

答案 1 :(得分:0)

您可以检查此软件包/代码库以搜索和导入任何UCI ML回购数据集。它不会加载Python对象中的数据集,而只是从门户自动搜索并下载您选择的数据集。您甚至可以选择特定大小和ML任务类别的所有数据集。

https://github.com/tirthajyoti/UCI-ML-API