Question

我有一个包含数千个目录的网站，我试图通过使用以下字段找出最受欢迎的网站

REGEXP_EXTRACT(Page,'(/[^/]+)')

在我之前的问题 here 之后，这很有效，但是 URL 中有一个随机的额外字符串会影响数字。

例如

这意味着当我运行我的字段时，一些应该归因于 /directoryA/ 的视图被归因于 /randomstring 并且我的表格报告如下：

有谁知道如何清理 Google Data Studio 中的数据，以便在我运行 REGEXP_EXTRACT 代码之前从 URL 中删除 /randomstring？

Answer 1

基于 Comments 中原始海报 (Benjamin Heap) 提供的其他详细信息：

<块引用>

字符串不是随机的，每次都是一样的

一种方法是在 REGEXP_REPLACE 之前使用 REGEXP_EXTRACT 函数，因此，下面将起作用（用实际字符串替换 /randomstring）：

REGEXP_EXTRACT(REGEXP_REPLACE(Page, "(/randomstring)", ""), "(/[^/]+)")