get started doc对我没有帮助。数据(agaricus.train)已采用专门格式(agaricus.test):


我看到this example code使用sparse.model.matrix,但我仍然很难将相当简单的数据整合到xgboost需要的格式中。

例如,假设我有两个数据框:> str(agaricus.train) List of 2 $ data :Formal class 'dgCMatrix' [package "Matrix"] with 6 slots .. ..@ i : int [1:143286] 2 6 8 11 18 20 21 24 28 32 ... .. ..@ p : int [1:127] 0 369 372 3306 5845 6489 6513 8380 8384 10991 ... .. ..@ Dim : int [1:2] 6513 126 .. ..@ Dimnames:List of 2 .. .. ..$ : NULL .. .. ..$ : chr [1:126] "cap-shape=bell" "cap-shape=conical" "cap-shape=convex" "cap-shape=flat" ... .. ..@ x : num [1:143286] 1 1 1 1 1 1 1 1 1 1 ... .. ..@ factors : list() $ label: num [1:6513] 1 0 0 1 0 0 0 1 0 0 ... words







xgb.DMatrix的输入可以是密集matrix,也可以是稀疏dgCMatrix,也可以是以LibSVM格式存储在文件中的稀疏数据。由于您正在处理文本数据,稀疏表示将是最合适的。 下面是如何将示例数据转换为dgCMatrix的示例。 在这里,我假设一个完美的情况,连续的整数句子_句子从1开始,在两个表中是相同的。如果在实践中不是这样,那么你需要更多的数据。


words <- data.frame(sentence_id=c(1, 1, 2, 2, 2),
                    word_id=c(1, 2, 1, 3, 4))
data_label <- data.frame(sentence_id=c(1, 2), label=c(0, 1))

# quick check of assumptions about sentence_id
stopifnot(min(words$sentence_id) == 1 &&
          max(words$sentence_id) == length(unique(words$sentence_id)))

# sparse matrix construction from "triplet" data
# (rows are sentences, columns are words, and the value is always 1)
smat <- sparseMatrix(i = words$sentence_id, j = words$word_id, x = 1)

# make sure sentence_id are in proper order in data_label:
data_label <- data_label[order(data_label$sentence_id)]
stopifnot(all.equal(data_label$sentence_id, 1:nrow(smat)))

xmat <- xgb.DMatrix(smat, label = data_label$label)