我一直在使用ngram
函数(ngram
包,同名)在一些文本数据上生成一些简单的ngrams。我正在寻找替代方案的原因是如何存储ngram类对象会破坏我的记忆。
我所拥有的是具有两列uniqueid,texttoparse
的数据框实施例
1一点文字
2更多文字
3还要审核
w6$ngram <- sapply(w6$texttoparse,ngram)
w6$actNgram <- as.character(sapply(w6$ngram,get.ngrams))
给了我以下的ngrams
1一点文字//一点//文本
2更多文字//更多//更多文字
3甚至更多要审核//甚至更多//要审核
我的问题是,正确显示的ngram和actNgram字段似乎有指针和对数据框中每一行的引用。这使得它们庞大而且笨重。
https://cran.r-project.org/web/packages/ngram/ngram.pdf
甚至提到ngram容器会影响保存或加载数据的能力。
我可以通过另一种方式获得此输出吗?