我正在评估基于BigQuery ML的二进制逻辑回归模型的性能。
我正在使用四个字符串字段。他们每个人都是一个句子。唯一应用的预处理就是将它们变成小写。这些字符串都不是列表或嵌入向量。
此二进制分类器在验证集上的表现非常好,我想知道为什么。
我想知道模型是如何编码/表示这些文本特征的,并且我还没有在BigQuery ML文档中找到它。
Bigquery ML是否将字符串字段编码为单词袋或word2vec / doc2vec向量包?
答案 0 :(得分:2)
我创建了一个模型,为您提供查看模型详细信息的确切方法。
这是一个简单的线性回归模型:
CREATE MODEL `deleting.stringtest`
OPTIONS ( model_type='linear_reg')
AS
SELECT 'hello' text, 1 label
UNION ALL
SELECT 'goodbye' text, 2 label
UNION ALL
SELECT 'hello goodbye my friend' text, 2 label
创建此模型后,您可以查看一下模型权重:
SELECT *
FROM ML.WEIGHTS(MODEL `deleting.stringtest`)
在这里您可以看到一种简单的一键编码,其中输入中每个不同的完整字符串都具有自己的维数。没有拆分。