Quanteda:如何将词汇多样性作为时间的函数进行绘制?

时间:2017-08-01 16:52:23

标签: r quanteda

我在Quanteda计算了我的DFM的词汇多样性,并希望随着时间的推移进行绘制。我的语料库中有年,月,日变量作为docvars。有没有办法将这些数据结合起来,并随着时间的推移产生词汇多样性图?

1 个答案:

答案 0 :(得分:0)

要绘制词汇多样性随着时间的推移,您需要计算词汇多样性随时间的变化,即按时间(月份或年份 - 取决于您)对数据进行分组,然后计算每个组的词汇多样性。一旦你有了这个,你将每组有一个值,然后可以用来绘图。

示例:

lex_div <- doc1_final %>%  
group_by(Page) %>%
summarise(lex_div = length(unique(word))/length(word)) 

我附上了doc1_final对象的图片。它基本上是一个分解为单词的数据帧,即每行一个单词。然后我将doc1_final对象传递给group_by函数,然后对分组数据执行计算。

您需要安装'dplyr'软件包才能运行上述代码。enter image description here