我有一个30k记录的data.frame(公司名称和其他属性)。 dba_nm
是公司名称字段,其中元素最长< 60个字符。
当我尝试?tm::VectorSource
中的代码时,R会话的内存使用量从100MB上升到3GB并挂起:
ds <- VectorSource(dat$dba_nm)
inspect(Corpus(ds))
答案 0 :(得分:0)
好吧,我从数据库中获取数据帧(dat)并尝试将其中一列(dba_nm)读入vectorource。事实证明你必须将它转换为字符向量。 以下代码有效:
> cs <- as.character(dat$dba_nm)
> ds <- VectorSource(cs)
> Corpus(ds)
A corpus with 30453 text documents