我的巨大的文件主要由图书元数据(作者,标题,日期,网址)组成。我的问题是我想对作者姓名进行操作(经常重复:作者可以有数百条记录),我想对这些作者的子集进行操作,这些作者有超过X条记录。
例如,我有200条与威廉·莎士比亚"相关的记录,但只有一条记录的约翰·布莱克"等等。重点是,这是一部经典的幂律,我有数十万作者,其中大多数有1-2个记录。
使用" Text facet" > "计数"是不可能的,因为我的电脑冻结了。
是否有查询根据计数显示一些记录的文本方面?
答案 0 :(得分:3)
使用以下GREL表达式创建自定义文本构面(将COLUMNS_NAME
替换为您的实际列名称):
facetCount(value, "value", "COLUMN_NAME") > 100
您可以编辑比较(在示例中,每个计数大于100)。
要仅显示精确的计数匹配,您需要使用两个==
,如下所示:
facetCount(value, "value", "COLUMN_NAME") == 100