我在Quanteda计算了我的DFM的词汇多样性,并希望随着时间的推移进行绘制。我的语料库中有年,月,日变量作为docvars。有没有办法将这些数据结合起来,并随着时间的推移产生词汇多样性图?
答案 0 :(得分:0)
要绘制词汇多样性随着时间的推移,您需要计算词汇多样性随时间的变化,即按时间(月份或年份 - 取决于您)对数据进行分组,然后计算每个组的词汇多样性。一旦你有了这个,你将每组有一个值,然后可以用来绘图。
示例:
lex_div <- doc1_final %>%
group_by(Page) %>%
summarise(lex_div = length(unique(word))/length(word))
我附上了doc1_final对象的图片。它基本上是一个分解为单词的数据帧,即每行一个单词。然后我将doc1_final对象传递给group_by函数,然后对分组数据执行计算。
您需要安装'dplyr'软件包才能运行上述代码。enter image description here