我在Linux服务器上使用R v3.3.2和H2O V3.10.2.1。
我通过h2o.download_mojo
将模型保存到MOJO。生成的文件是.zip文件。在.zip文件中是这些文本文件:
model.ini
domains/d000.txt
domains/d001.txt
domains/d002.txt
domains/d003.txt
domains/d004.txt
domains/d005.txt
domains/d006.txt
domains/d007.txt
domains/d008.txt
在model.ini
文件中,有一个[columns]
部分列出了用于训练模型的列:
[columns]
name
address01
address02
city
state
zip
phone number
age
在model.ini
文件中,还有另一个部分[domains]
列出了包含在培训期间用于最终模型中保留的分类列的数据的文件名:
[domains]
1: 71 d000.txt
2: 71 d001.txt
3: 51 d002.txt
4: 3243 d003.txt
5: 3228 d004.txt
6: 2954 d005.txt
7: 2456 d006.txt
9: 616 d007.txt
如何将[columns]
中列出的列名与[domains]
中列出的域文件相关联?
例如,第一个域文件d000.txt
不包含列出的第一列name
的数据。实际上,d000.txt
确实包含第3列address02
的数据。
我如何知道这种映射:
1: 71 d000.txt --> address02
2: 71 d001.txt --> phone number
3: 51 d002.txt --> column 23
4: 3243 d003.txt --> column 58
下载的POJO(普通旧java对象)包含足够的信息来进行此关联。我没有看到下载MOJO的方法。
[domains]
部分中第四列的内容会有所帮助:
[domains]
1: 71 d000.txt "address02"
2: 71 d001.txt "phone number"
3: 51 d002.txt "column 23"
4: 3243 d003.txt "column 58"
感谢您的帮助!
答案 0 :(得分:1)
[domains]对其所属的列具有从0开始的索引。在下面的示例中,“7:”指的是CAPSULE列:它在d000.txt文件中列出了一个2因子域。
[columns]
AGE
RACE
DPROS
DCAPS
PSA
VOL
GLEASON
CAPSULE
[domains]
7: 2 d000.txt