如何构建合适的H2O word2vec training_frame

时间:2019-01-11 14:09:48

标签: word2vec h2o

如何构建H2O word2vec training_frame来区分不同的文档/句子等?

据我从所找到的非常有限的文档中可以读到的内容,您只是提供了一长串单词?如

'This' 'is' 'the' 'first' 'This' 'is' 'number' 'two'

然而,能够区分–理想的情况是这样的:

Name   | ID
This   | 1
is     | 1
the    | 1
first  | 1
This   | 2
is     | 2
number | 2
two    | 2

有可能吗?

1 个答案:

答案 0 :(得分:2)

word2vec是一种无监督学习:将字符串数据转换为数字。因此,要进行分类,您需要执行两个步骤:

  • word2vec将字符串转换为数字
  • 任何将数字分类的有监督学习技术

documentation包含指向RPython中每个分类示例的链接。 This tutorial在不同的数据集上显示了相同的过程(并且应该附带一个H2O World 2017视频)。

顺便说一句,在您的原始示例中,您不只是提供单词;句子之间用NA分隔。如果您给h2o.tokenize()提供一个句子向量,它将为您提供这种格式。因此,您的示例实际上是:

  

'这''是''该''第一'NA'这''是''数字''两个'