在我的学校中,我必须参加一项挑战,以了解我是否了解R中文本挖掘的工作原理。
为此,我们有1050个不同类型的文件(购物,家庭,帐户等)。
本练习的目的是开发一个脚本,该脚本用于使用分类器查找HTML页面的类型,时间和精度非常重要。
我和我的团队已经开始使用kppv分类器,但是我们有40%的错误。因此,我们必须决定使用分类器SVM!
我们需要创建多个脚本,并且要有足够的耐心,才能使用所有文档创建一个SVM模型。 然后,当我们要查看是否可以识别模型中放置的文件时,就可以了。
但是当我们想要放置一个html页面时,输出会发生变化,并且我们不知道这样做的结果。
library("e1071")
library("tm")
splash=function(x){
res=NULL
for (i in x) res=paste(res, i)
res
}
#Suppression des script s(<script .... </script>)
removeScript=function(t){
sp=strsplit(t, "<script")
vec=sapply(sp[[1]], gsub, pattern=".*</script>", replace=" ")
PlainTextDocument(splash(vec))
}
#Suppression de toutes les balises
removeBalises=function(x){
t1=gsub("<[^>]*>", " ", x)
PlainTextDocument(gsub("[ \t]+"," ",t1))
}
clean_corpus = function(corp)
{
corp<-tm_map(corp,content_transformer(tolower))
corp<-tm_map(corp,content_transformer(splash))
corp<-tm_map(corp,content_transformer(removeScript))
corp<-tm_map(corp,content_transformer(removeBalises))
corp<-tm_map(corp,removeNumbers)
corp<-tm_map(corp,removeWords,words=stopwords('en'))
corp<-tm_map(corp,stemDocument)
corp<-tm_map(corp,removePunctuation)
corp
}
training_set = readRDS(file = "training_set.rds")
term20 = readRDS(file = "term20.rds")
classes = c(rep(1,150), rep(2,150), rep(3,150), rep(4,150), rep(5,150), rep(6,150), rep(7,150))
model <-svm(x=training_set[,ncol(training_set)],y=classes,type='C',kernel='linear', cost=1, gamma=1)
summary(model)
pred = predict(model, classes)
pred
testingFile = function()
{
src = DirSource("testing")
corp = VCorpus(src)
clean_corpus(corp);
}
testCorpus = testingFile()
testCorpus
testdtm = DocumentTermMatrix(testCorpus, control=list(weighting=weightTf))
testmat = as.matrix(testdtm)
testpreds = sapply(1, function(i)
{
v = testmat[i, ][term20]
#v[is.na(v)] = 0
predict(model, v)
})
testpreds
library("tm")
library("magrittr")
library("SnowballC")
library("nnet")
acc<-VCorpus(DirSource("training2016/", recursive=TRUE))
#acc<-VCorpus(DirSource("trainingLight/", recursive=TRUE))
[...]
dtm = DocumentTermMatrix(clean_corpus(acc))
dtm
term20 = findFreqTerms(dtm, lowfreq = 20)
freqs = sapply(1:50, function(i) length(findFreqTerms(dtm, lowfreq = i)))
plot(freqs)
dtm20 = dtm[, term20]
dim(dtm20)
m = as.matrix(dtm20)
classes = c(rep(1,150), rep(2,150), rep(3,150), rep(4,150), rep(5,150), rep(6,150), rep(7,150))
#classes = c(rep(1,150), rep(2,150), rep(3,150))
training_set = cbind(m, classes)
saveRDS(training_set, file = "training_set.rds")
saveRDS(term20, file = "term20.rds")
当我们想要的时候,只放一个文件,他输出带有值的单词列表(即类)。
此输出可能有用,但我们不知道如何。
我们想知道如何使用此输出。
accessori "5"
account "1"
ahead "1"
airport "4"
also "1"
amp "1"
anyon "1"
appl "7"
around "1"
audio "1"
australia "1"
avail "1"
...
答案 0 :(得分:0)
经过几次研究,我发现预测函数必须采用单词矩阵,并且只能包含单词矩阵。
所以我刚刚将其放在脚本中:
v = testmat[1, ][term20]
names(v) = term20
v[is.na(v)] = 0
mat = matrix(v,nrow=1)
pred = predict(model, mat)
tableau = table(pred)
names(tableau)[[which.max(tableau)]]
将我的向量转换为矩阵并删除les NA并返回一个值,这是我在SVM模型中发送的文件的类。