我正在尝试从相当大的语料库中随机抽取KWIC示例。对于较小的语料库,我可以使用xtable完整查看KWIC输出,然后创建随机数列表以标识并复制和粘贴随机示例。但是对于较大的语料库,这是行不通的,因为KWIC对象中包含超过500,000个示例。
有没有办法对此进行编码,因此我可以将KWIC对象限制为30个或40个匹配的随机样本,而不是所有匹配的列表?非常感谢您的帮助。我在文档中看不到任何明显的方法。
答案 0 :(得分:0)
好的,我应该为找到自己的问题的答案付出更多的努力。以下代码适用于我希望做的事情:
requirekwic <-kwic(cfrcorpus,pattern =“ requir *”,window = 50)
samplerequirekwic <-requirekwic [sample(nrow(requirekwic),15),]