如何从语料库创建DocumentTerm矩阵,有问题?

时间:2017-11-07 17:21:52

标签: r tm

file.txt有58行,看起来像

第1行:48~91< 4n> XXY,+ X,-4,+ der(6)t(1; 6)(q21; q13),del(9)(q22),add(12)( P11.2) 第2行:48,XY,t(1; 9)(p34; p22),trp(1)(q32q42),add(4)(q35),+ 8

mydata<-read.table(file="file.txt", header=FALSE, sep="\t")
newdata <-strsplit(as.character(mydata$V1), split = ",") #splitting terms 
(,)
Corpus = Corpus(VectorSource(newdata))
dtm <- DocumentTermMatrix(Corpus)

语料库产生(例如)\“ - X \”,\“ - 4 \”,\“+ der(6)t(1; 6)(q21; q13)\”,ETC ...... 在上面的例子中,dtm只产生“der”。

0 个答案:

没有答案