应用错误收集

我有以下代码，并想知道它是否可以进一步优化。我有超过4GB的数据。我绘制的数据看起来像这样。另外，如何保留最初包含在数据文件中的元数据？数据如下所示：https://www.dropbox.com/s/72hl3kh894w5rg0/Sample.RData?dl=0

 require(quanteda)
 require(tm)


 #a=Doc$content[0:length(Doc$content)]
 a=Doc$content[0:1000]

 b=(lapply(a, `[[`, 1))

 #df = as.data.frame(b, col.names="text")
 df= data.frame(matrix(unlist(b), nrow=1000, byrow=T), stringsAsFactors=FALSE)
 colnames(df)="text"
 dfCorpus = Corpus(VectorSource(df$text)) 

 token <- tokenize(dfCorpus$content[1:1000])

 x=dfm(token)

 g= textstat_simil(x, method="cosine")

如何优化quanteda以处理大型数据集？

0 个答案: