如何构建H2O word2vec training_frame来区分不同的文档/句子等?
据我从所找到的非常有限的文档中可以读到的内容,您只是提供了一长串单词?如
'This' 'is' 'the' 'first' 'This' 'is' 'number' 'two'
然而,能够区分–理想的情况是这样的:
Name | ID
This | 1
is | 1
the | 1
first | 1
This | 2
is | 2
number | 2
two | 2
有可能吗?
答案 0 :(得分:2)
word2vec是一种无监督学习:将字符串数据转换为数字。因此,要进行分类,您需要执行两个步骤:
documentation包含指向R和Python中每个分类示例的链接。 This tutorial在不同的数据集上显示了相同的过程(并且应该附带一个H2O World 2017视频)。
顺便说一句,在您的原始示例中,您不只是提供单词;句子之间用NA分隔。如果您给h2o.tokenize()提供一个句子向量,它将为您提供这种格式。因此,您的示例实际上是:
'这''是''该''第一'NA'这''是''数字''两个'