我们经常需要提取大dataset
的随机样本?在openrefine
上执行此操作的最佳方式是什么?这可能对以前在R
和Python
中执行此操作的从业者有用。
提前感谢任何建议!
答案 0 :(得分:3)
Open Refine没有内置函数,但您可以使用Python / Jython创建一个新的随机整数列。例如,如果你有100 000行:
import random
return random.randint(0, 100000)
然后,您可以对此列进行排序,永久重新排序行,并选择例如带有自定义文本构面的前几千个:
row.index < 1000
编辑:我忘了来自@OwenStephens的this extension添加了randomNumber GREL函数。随意安装它。