Word2Vec嵌入和CNN在H2O R上的例子

时间:2017-11-03 05:23:43

标签: r nlp word2vec h2o mxnet

我想知道是否可以提供任何r示例代码,以便在H2O DeepWater R版本中使用word2vec和cnn进行文本分类?关于mexnetRh2o deep water r

的文档非常少

我已使用h2o r版本包来训练我的word2vec word embedding词汇表查找表和文档字向量矩阵。我想知道是否有任何示例代码将查找表和原始原始文本组合到使用mxnetR(自定义迭代器)CNN分类模型中,或使用h2o r直接构建CNN。

我在问,因为如果我一次将所有数据转换为数组格式,那么我的机器将没有足够的内存来支持它。

1 个答案:

答案 0 :(得分:1)

如果RAM是一个约束(必须是一个非常大的语料库),那么使用mx.io.CSVIter可能是一种方法。 CSV可以分批编写,在培训期间内存占用有限。使用vanilla mx.io.CSVIter,可能需要执行重新整形以将X批次X seq.length作为对网络中数据的初始转换。

另一种选择可能是在模型中学习嵌入,例如使用此演示:http://dmlc.ml/rstats/2017/10/11/rnn-bucket-mxnet-R.html,它还提供了一个带有bucketing的自定义iter的示例,这也限制了RAM的消耗。