Bigquery ML如何编码字符串特征以进行预测?

时间:2019-07-09 21:57:14

标签: google-bigquery bigquery-ml

我正在评估基于BigQuery ML的二进制逻辑回归模型的性能。

我正在使用四个字符串字段。他们每个人都是一个句子。唯一应用的预处理就是将它们变成小写。这些字符串都不是列表或嵌入向量。

此二进制分类器在验证集上的表现非常好,我想知道为什么。

我想知道模型是如何编码/表示这些文本特征的,并且我还没有在BigQuery ML文档中找到它。

Bigquery ML是否将字符串字段编码为单词袋或word2vec / doc2vec向量包?

1 个答案:

答案 0 :(得分:2)

我创建了一个模型,为您提供查看模型详细信息的确切方法。

这是一个简单的线性回归模型:

CREATE MODEL `deleting.stringtest`
OPTIONS ( model_type='linear_reg')
AS 
SELECT 'hello' text, 1 label
UNION ALL
SELECT 'goodbye' text, 2 label
UNION ALL
SELECT 'hello goodbye my friend' text, 2 label

创建此模型后,您可以查看一下模型权重:

SELECT *
FROM ML.WEIGHTS(MODEL `deleting.stringtest`)

enter image description here

在这里您可以看到一种简单的一键编码,其中输入中每个不同的完整字符串都具有自己的维数。没有拆分。