我有以下代码,并想知道它是否可以进一步优化。我有超过4GB的数据。我绘制的数据看起来像这样。另外,如何保留最初包含在数据文件中的元数据?数据如下所示:https://www.dropbox.com/s/72hl3kh894w5rg0/Sample.RData?dl=0
require(quanteda)
require(tm)
#a=Doc$content[0:length(Doc$content)]
a=Doc$content[0:1000]
b=(lapply(a, `[[`, 1))
#df = as.data.frame(b, col.names="text")
df= data.frame(matrix(unlist(b), nrow=1000, byrow=T), stringsAsFactors=FALSE)
colnames(df)="text"
dfCorpus = Corpus(VectorSource(df$text))
token <- tokenize(dfCorpus$content[1:1000])
x=dfm(token)
g= textstat_simil(x, method="cosine")