在此question中,我询问如何拆分庞大的数据框以创建语料库。由于答案,我能够从数据框中创建一个列表。 我的问题仍然是从我创建的列表中获取语料库,以便根据搜索词进行一些文本挖掘和聚类数据。
答案 0 :(得分:3)
要解决这个问题,我只是将tm包的as.VCorpus函数应用到我之前创建的列表中:
new_corpus <- as.VCorpus(new_list)
检查新对象是否为语料库:
class(new_corpus)
[1] "VCorpus" "Corpus"
我因此创建了一个&#34;易变语料库&#34;。如R文档中所述:
易失性语料库完全保留在内存中,因此所有更改只会影响相应的R对象。