在Quanteda中随机抽样KWIC示例

时间:2019-02-28 15:05:58

标签: sample quanteda

我正在尝试从相当大的语料库中随机抽取KWIC示例。对于较小的语料库,我可以使用xtable完整查看KWIC输出,然后创建随机数列表以标识并复制和粘贴随机示例​​。但是对于较大的语料库,这是行不通的,因为KWIC对象中包含超过500,000个示例。

有没有办法对此进行编码,因此我可以将KWIC对象限制为30个或40个匹配的随机样本,而不是所有匹配的列表?非常感谢您的帮助。我在文档中看不到任何明显的方法。

1 个答案:

答案 0 :(得分:0)

好的,我应该为找到自己的问题的答案付出更多的努力。以下代码适用于我希望做的事情:

requirekwic <-kwic(cfrcorpus,pattern =“ requir *”,window = 50)

samplerequirekwic <-requirekwic [sample(nrow(requirekwic),15),]