Openrefine:通过计数的文本方面

时间:2016-11-02 11:22:01

标签: openrefine clusterize

我的巨大的文件主要由图书元数据(作者,标题,日期,网址)组成。我的问题是我想对作者姓名进行操作(经常重复:作者可以有数百条记录),我想对这些作者的子集进行操作,这些作者有超过X条记录。

例如,我有200条与威廉·莎士比亚"相关的记录,但只有一条记录的约翰·布莱克"等等。重点是,这是一部经典的幂律,我有数十万作者,其中大多数有1-2个记录。

使用" Text facet" > "计数"是不可能的,因为我的电脑冻结了。

是否有查询根据计数显示一些记录的文本方面?

1 个答案:

答案 0 :(得分:3)

使用以下GREL表达式创建自定义文本构面(将COLUMNS_NAME替换为您的实际列名称):

facetCount(value, "value", "COLUMN_NAME") > 100

您可以编辑比较(在示例中,每个计数大于100)。

要仅显示精确的计数匹配,您需要使用两个==,如下所示:

facetCount(value, "value", "COLUMN_NAME") == 100

有关此video + tutorail on facet by facet count

的更多详情