如何优化quanteda以处理大型数据集?

时间:2017-10-02 18:04:46

标签: r

我有以下代码,并想知道它是否可以进一步优化。我有超过4GB的数据。我绘制的数据看起来像这样。另外,如何保留最初包含在数据文件中的元数据?数据如下所示:https://www.dropbox.com/s/72hl3kh894w5rg0/Sample.RData?dl=0

 require(quanteda)
 require(tm)


 #a=Doc$content[0:length(Doc$content)]
 a=Doc$content[0:1000]

 b=(lapply(a, `[[`, 1))

 #df = as.data.frame(b, col.names="text")
 df= data.frame(matrix(unlist(b), nrow=1000, byrow=T), stringsAsFactors=FALSE)
 colnames(df)="text"
 dfCorpus = Corpus(VectorSource(df$text)) 

 token <- tokenize(dfCorpus$content[1:1000])

 x=dfm(token)

 g= textstat_simil(x, method="cosine")

0 个答案:

没有答案