如何使用quanteda将元数据附加到文本语料库?

时间:2016-11-02 03:19:15

标签: r text corpus quanteda

我正在使用quanteda创建文本语料库并尝试附加元数据,但我一直收到错误消息。我之前在另一个数据集上使用过此代码,但由于某种原因,它不能使用我当前的数据集。代码是:

dfm.ineq1 <- corpus(df.ineq$speech, 
                        docnames=df.ineq$speechID, 
                        docvars=select(party))

我得到的错误是:

  

选择_(。数据,.dots = lazyeval :: lazy_dots(...))出错:对象   &#39;党&#39;找不到

我也尝试将派对引用并出现此错误:

  

UseMethod中的错误(&#34;选择_&#34;):没有适用的方法来选择_&#39;   应用于类&#34;字符&#34;

的对象

派对专栏非常简单。值为:

"Democratic"  "Republican"  "N/A"         "Independent"

关于可能出错的任何想法?

2 个答案:

答案 0 :(得分:1)

更简单的方法:使用为data.frame对象定义corpus构造函数方法的事实。

dfm.ineq1  <- corpus(df.ineq, text_field = "speech")

这会自动正确加载speech中的文本字段,并将speechIDparty包含为docvars。

答案 1 :(得分:0)

我意识到我忘了将数据框放在选择括号中!

dfm.ineq1 <- corpus(df.ineq$speech, 
                        docnames=df.ineq$speechID, 
                        docvars=select(df.ineq, party))