Question

我有一个30k记录的data.frame（公司名称和其他属性）。 dba_nm是公司名称字段，其中元素最长＆lt; 60个字符。

当我尝试?tm::VectorSource中的代码时，R会话的内存使用量从100MB上升到3GB并挂起：

ds <- VectorSource(dat$dba_nm)
inspect(Corpus(ds))

Answer 1

好吧，我从数据库中获取数据帧（dat）并尝试将其中一列（dba_nm）读入vectorource。事实证明你必须将它转换为字符向量。以下代码有效：

> cs <- as.character(dat$dba_nm)
> ds <- VectorSource(cs)
> Corpus(ds)
A corpus with 30453 text documents