在R

时间:2016-03-17 19:22:35

标签: r performance memory n-gram

我一直在使用ngram函数(ngram包,同名)在一些文本数据上生成一些简单的ngrams。我正在寻找替代方案的原因是如何存储ngram类对象会破坏我的记忆。

我所拥有的是具有两列uniqueid,texttoparse

的数据框

实施例

1一点文字

2更多文字

3还要审核

w6$ngram <- sapply(w6$texttoparse,ngram)
w6$actNgram <- as.character(sapply(w6$ngram,get.ngrams))

给了我以下的ngrams

1一点文字//一点//文本

2更多文字//更多//更多文字

3甚至更多要审核//甚至更多//要审核

我的问题是,正确显示的ngram和actNgram字段似乎有指针和对数据框中每一行的引用。这使得它们庞大而且笨重。

https://cran.r-project.org/web/packages/ngram/ngram.pdf

甚至提到ngram容器会影响保存或加载数据的能力。

我可以通过另一种方式获得此输出吗?

0 个答案:

没有答案