我读过它是bad idea to parse XML/HTML using regular expressions。另一种建议是使用XML解析器。 BigQuery Standard SQL库中是否存在一个?
答案 0 :(得分:2)
以下是如Elliot所述的如何在BigQuery中使用Javascript UDF的文档。
https://cloud.google.com/bigquery/docs/reference/standard-sql/user-defined-functions
我想UDF可能看起来像
CREATE TEMPORARY FUNCTION XML(x STRING)
RETURNS STRING
LANGUAGE js AS """
var data = fromXML(x);
return data.title;
"""
OPTIONS(
library="gs://<BUCKET_NAME>/from-xml.min.js"
);
SELECT XML(a) FROM UNNEST(["<title>Title of Page</title>"]) as a
from-xml.min.js来自this库并加载到您的gcs帐户