R中的tm包挂起了小数据集

时间:2012-08-30 04:37:01

标签: r tm

我有一个30k记录的data.frame(公司名称和其他属性)。 dba_nm是公司名称字段,其中元素最长< 60个字符。

当我尝试?tm::VectorSource中的代码时,R会话的内存使用量从100MB上升到3GB并挂起:

ds <- VectorSource(dat$dba_nm)
inspect(Corpus(ds))

1 个答案:

答案 0 :(得分:0)

好吧,我从数据库中获取数据帧(dat)并尝试将其中一列(dba_nm)读入vectorource。事实证明你必须将它转换为字符向量。 以下代码有效:

> cs <- as.character(dat$dba_nm)
> ds <- VectorSource(cs)
> Corpus(ds)
A corpus with 30453 text documents