防止在h2o importFile中出现不匹配的引用解析错误

时间:2017-04-07 18:09:27

标签: r word2vec h2o

这是斯坦福GLOVE项目提供的受欢迎的预训练单词矢量文件。它通常用于自然语言应用程序。

解析错误可能是我试图解决的一些不可预测行为的根本原因。在此十六进制帧上执行as.data.frame后出现奇怪的内容(未显示)。所以我想以某种方式修复此早期错误。

# How to eliminate parse error?
g6B = h2o.importFile(path = "/mnt/fastssd/glove/glove.6B/glove.6B.100d.txt", header=FALSE, na.strings=NA, sep=" ")

WARNING: ParseError at file nfs://mnt/fastssd/glove/glove.6B/glove.6B.100d.txt  at byte offset 7674; error = 'Unmatched quote char "' 
  |======================================================================| 100%
Warning message in doTryCatch(return(expr), name, parentenv, handler):
“ParseError at file /mnt/fastssd/glove/glove.6B/glove.6B.100d.txt  at byte offset 7674; error = 'Unmatched quote char "'”

在H2O中有办法修复此错误吗?如果不是那么另一种方式是什么?感谢

1 个答案:

答案 0 :(得分:0)

我下载了手套.6B.100d.txt测试并快速尝试使用R中的最新H2O 3.10.4.3并确实看到相同的警告,但数据被正确摄取。

我仍然可以使用具有399,999行和101列的数据框,因此我可以确认数据摄取是正确的,并且警告不会导致数据摄取出现任何问题。

我已打开以下JIRA来解决警告问题:

https://0xdata.atlassian.net/browse/PUBDEV-4284