我想知道是否可以提供任何r
示例代码,以便在H2O DeepWater R版本中使用word2vec和cnn进行文本分类?关于mexnetR
或h2o deep water r
我已使用h2o
r
版本包来训练我的word2vec
word embedding
词汇表查找表和文档字向量矩阵。我想知道是否有任何示例代码将查找表和原始原始文本组合到使用mxnetR
(自定义迭代器)CNN分类模型中,或使用h2o r
直接构建CNN。
我在问,因为如果我一次将所有数据转换为数组格式,那么我的机器将没有足够的内存来支持它。
答案 0 :(得分:1)
如果RAM是一个约束(必须是一个非常大的语料库),那么使用mx.io.CSVIter
可能是一种方法。 CSV可以分批编写,在培训期间内存占用有限。使用vanilla mx.io.CSVIter
,可能需要执行重新整形以将X批次X seq.length作为对网络中数据的初始转换。
另一种选择可能是在模型中学习嵌入,例如使用此演示:http://dmlc.ml/rstats/2017/10/11/rnn-bucket-mxnet-R.html,它还提供了一个带有bucketing的自定义iter的示例,这也限制了RAM的消耗。