如何在Openrefine中制作随机样本?

时间:2017-09-05 20:50:19

标签: random data-cleaning openrefine

我们经常需要提取大dataset的随机样本?在openrefine上执行此操作的最佳方式是什么?这可能对以前在RPython中执行此操作的从业者有用。

提前感谢任何建议!

1 个答案:

答案 0 :(得分:3)

Open Refine没有内置函数,但您可以使用Python / Jython创建一个新的随机整数列。例如,如果你有100 000行:

import random
return random.randint(0, 100000)

然后,您可以对此列进行排序,永久重新排序行,并选择例如带有自定义文本构面的前几千个:

row.index < 1000
编辑:我忘了来自@OwenStephens的this extension添加了randomNumber GREL函数。随意安装它。

enter image description here