难以使用tm_combine

时间:2017-05-23 08:25:35

标签: r

我无法在R中使用tm_combine。以下是版本详细信息

platform       x86_64-w64-mingw32          
arch           x86_64                      
os             mingw32                     
system         x86_64, mingw32             
status                                     
major          3                           
minor          3.3                         
year           2017                        
month          03                          
day            06                          
svn rev        72310                       
language       R                           
version.string R version 3.3.3 (2017-03-06)
nickname       Another Canoe  

我想更多地了解这一点。如果访问这个问题,我的问题是如何组合两个具有不同列数的文档术语矩阵D1和D2?

> packageVersion("tm")
[1] ‘0.7.1’
> dim(s.tdm)
[1] 132 536
> dim(f.tdm)
[1] 132 674
> 

感谢。

这是我正在尝试的代码

library(tm)
library(SnowballC)

s.dir <- "AuthorIdentify\\Author1"
f.dir <- "AuthorIdentify\\Author2"

s.docs <- Corpus(DirSource(s.dir, encoding="UTF-8"))
f.docs <- Corpus(DirSource(f.dir, encoding="UTF-8"))

cleanCorpus<-function(corpus){
  # apply stemming
  corpus <-tm_map(corpus, stemDocument)

  # remove punctuation
  corpus.tmp <- tm_map(corpus,removePunctuation)

  # remove white spaces
  corpus.tmp <- tm_map(corpus.tmp,stripWhitespace)

  # remove stop words
  corpus.tmp <-
    tm_map(corpus.tmp,removeWords,stopwords("en"))

  return(corpus.tmp)
}

s.cldocs <- cleanCorpus(s.docs) # preprocessing

# forms document-term matrix
s.tdm <- DocumentTermMatrix(s.cldocs)

# removes infrequent terms
s.tdm <- removeSparseTerms(s.tdm,0.97)

dim(s.tdm) # [ #docs, #numterms ]

f.cldocs <- cleanCorpus(f.docs) # preprocessing

# forms document-term matrix
f.tdm <- DocumentTermMatrix(f.cldocs)

# removes infrequent terms
f.tdm <- removeSparseTerms(f.tdm,0.97)

dim(f.tdm) # [ #docs, #numterms ]


#how do I combine f.tdm and s.tdm
tm_combine???

我需要将它们组合起来(最终到矩阵或data.frame),以便我可以为Author1或Author2提供列标识符

使用链接文章中引用的方法,组合DTM的输出与预期输出不匹配。我在评论部分引用了相关细节。

0 个答案:

没有答案