应用错误收集

时间：2016-11-02 11:22:01

标签： openrefine clusterize

我的巨大的文件主要由图书元数据（作者，标题，日期，网址）组成。我的问题是我想对作者姓名进行操作（经常重复：作者可以有数百条记录），我想对这些作者的子集进行操作，这些作者有超过X条记录。

例如，我有200条与威廉·莎士比亚＆＃34;相关的记录，但只有一条记录的约翰·布莱克＆＃34;等等。重点是，这是一部经典的幂律，我有数十万作者，其中大多数有1-2个记录。

使用＆＃34; Text facet＆＃34; ＆GT; ＆＃34;计数＆＃34;是不可能的，因为我的电脑冻结了。

是否有查询根据计数显示一些记录的文本方面？

答案 0 :(得分：3)

使用以下GREL表达式创建自定义文本构面（将COLUMNS_NAME替换为您的实际列名称）：

facetCount(value, "value", "COLUMN_NAME") > 100

您可以编辑比较（在示例中，每个计数大于100）。

要仅显示精确的计数匹配，您需要使用两个==，如下所示：

facetCount(value, "value", "COLUMN_NAME") == 100

的更多详情