我试图理解RTextTools
如何为文档分类提供一系列功能。
但是,在运行内置数据集时,我无法理解如何解释下表。 (我想知道为什么有10行)
SVM_PRECISION SVM_RECALL SVM_FSCORE MAXENTROPY_PRECISION MAXENTROPY_RECALL MAXENTROPY_FSCORE
2 NaN 0 NaN 0.5 1 0.67
12 NaN 0 NaN 0 0 NaN
14 NaN 0 NaN NaN 0 NaN
15 NaN 0 NaN 0 0 NaN
16 NaN 0 NaN 0.33 0.2 0.25
17 NaN 0 NaN NaN 0 NaN
19 0.08 1 0.15 0.14 0.5 0.22
20 NaN 0 NaN 0.38 0.75 0.5
24 NaN 0 NaN NaN 0 NaN
31 NaN 0 NaN NaN 0 NaN
上表可以按
生成library(RTextTools)
data(NYTimes)
data <- NYTimes[sample(1:3100,size=100,replace=FALSE),]
matrix <- create_matrix(cbind(data["Title"],data["Subject"]), language="english",
removeNumbers=TRUE, stemWords=FALSE, weighting=tm::weightTfIdf)
container <- create_container(matrix,data$Topic.Code,trainSize=1:75, testSize=76:100,
virgin=FALSE)
models <- train_models(container, algorithms=c("MAXENT","SVM"))
results <- classify_models(container, models)
analytics <- create_analytics(container, results)
summary(analytics)
alg_summary <- analytics@algorithm_summary
答案 0 :(得分:1)
来自docs:
algorithm_summary
类的对象&#34; data.frame&#34;:存储精度, 召回,每个算法的F-score统计数据,细分 标签强>
完整的NYTimes数据集中有27个不同的主题代码,您的样本可能包含其中的10个。因此10行。