增加在Azure ML中选择的行数

时间:2018-08-23 09:10:57

标签: r azure prediction azure-machine-learning-studio

我用AML创建了预测模型。问题是当我执行r组件时,从数据集输入中仅选择了1567行(结果数据集)(它包含约85000行)。我想至少包括7000个训练和计分,但我不确定该怎么做。

输入数据集: Input Dataset

结果数据集 Result Dataset

型号

AML model

谢谢。

# Map 1-based optional input ports to variables
dataset <- maml.mapInputPort(1) # class: data.frame

dataset$Capacidad <- as.numeric(dataset$Capacidad)

resource <- list()
output_forecast <- data.frame()


datasource <- data.frame(Fecha = character(0), Delegacion = character(0), Grupo_recurso = character(0), IDRecurso = character(0), Numero_proyectos = numeric(0), Cantidad = numeric(0), Capacidad = numeric(0), Productividad = numeric(0))


addToDatasource <- function(datasource_data_frame, fecha, delegacion, grupo_recurso, id_recurso, numero_proyectos, cantidad, capacidad, productividad){

  new_data_frame <- data.frame(Fecha = fecha, Delegacion = delegacion, Grupo_recurso = grupo_recurso, IDRecurso = id_recurso, Numero_proyectos = numero_proyectos, Cantidad = cantidad, Capacidad = capacidad, Productividad = productividad)

  return(rbind(datasource_data_frame, new_data_frame))
}

 resource_data <- dataset[!(dataset$Grupo_recurso %in% c("ADMIN", 
 "DIRECTOR", "EXTERNO", "GERENTE", "RESP OPERACIONES", 

 "MARKETING", "TELEMARKETING")), ]

resource_list <- unique(resource_data[(resource_data$Activo == 1), 
"IDRecurso"])
resource_list <- resource_list[!(resource_list %in% c("AFH", "BSS", "EDC","GLM", "GJ", "GPV"))]



for(i in 1:length(resource_list)){

  dataset_res <- dataset[(dataset$IDRecurso %in% resource_list[i]),]

  dataset_res$Fecha <- format(as.Date(dataset_res$Fecha), "%m-%Y")

  date_list <- unique(dataset_res$Fecha)
    for(j in 1:length(date_list)){

    dataset_date <- dataset_res[(dataset_res$Fecha == date_list[j]),]

    #Number of projects calculation
    number_projects <- length(unique(dataset_date$Proyecto))

    if(sum(dataset_date$Capacidad) > 0){

  #Productivity calculation
  productivity <- sum(dataset_date$Cantidad_productiva)/sum(dataset_date$Capacidad)

  datasource <- addToDatasource(datasource, date_list[j], unique(dataset_date$Delegacion), unique(dataset_res$Grupo_recurso), resource_list[i], number_projects, sum(dataset_date$Cantidad), sum(dataset_date$Capacidad), productivity)
}

} }

选择要发送到输出数据集端口的data.frame

maml.mapOutputPort(“ datasource”);

0 个答案:

没有答案