JSAT:数据争用/操纵

时间:2015-11-13 14:45:03

标签: java machine-learning

R中构建原型(使用dplyr)之后,我需要构建一个可部署到基于Java的服务器基础架构的模型。现在,我正在使用JSAT - 机器学习库。

争论数据的最佳方式是什么?

JSAT包(ClassificationDataSetRegressionDataSetDataSet)中的所有类似集合的类型似乎都不支持以下基本任务:

  1. 根据条件过滤输出数据点
  2. 将数据集拆分为两个(不同大小的)数据集,例如培训和测试数据集
  3. 变异或根据其他行的值添加新行

1 个答案:

答案 0 :(得分:1)

1)JSAT目前不支持,JSAT是机器学习算法的来源。像操作这样的数据帧不以任何方式成为项目的目标。我不确定您为什么要在生产系统中过滤掉数据,没有理由不能在更好的工具中执行此操作,然后导出数据以使JSAT构建模型。

2)所有DataSet对象都继承了randomSplit方法,可以执行您所要求的操作。一个例子是here

3)参见1,我不确定根据其他行"添加"新行的用例是什么。所有不同的DataSet类都支持添加新的数据点,您只需自己创建它们即可。

来源:我是JSAT的作者