as.H2O无法确定文件类型错误

时间:2018-08-29 19:16:40

标签: r hdfs h2o

你好,我试图将一些Twitter数据放入R中的h2o随机森林模型中。我一直收到无法确定的文件类型错误。我在使用Rstudio的R版本1.1.453中。

代码:

library(dplyr)
library(tidyr)
library(ace)
library(h2o)
library(data.table)

hdfs.kinit()
h2oStart()

tweet.dt <- as.data.table(fread(file = "/tech/home/js87549e/ExtractedTweets.csv", col.names = c('Party','Handle','Tweet')))
tweet.dt$outcome <- 0
tweet.dt$outcome[tweet.dt$Party == "Democrat"] <- 1
tweet.dt$outcome <- as.factor(tweet.dt$outcome)
tweet.dt$Tweet <- as.character(tweet.dt$Tweet)

inp.dt <- as.data.table(tweet.dt %>%
  mutate(string = strsplit(Tweet, split = " ")) %>%
  unnest(string))

inp.dt$string <- as.factor(inp.dt$string)

dat.dt <- as.data.table(inp.dt[,c(4,5)])

inp.hex <- as.h2o(dat.dt)

数据:https://www.kaggle.com/kapastor/democratvsrepublicantweets/downloads/democratvsrepublicantweets.zip/4

错误消息:

无法确定文件类型。用于/tech/appl/user/js87549e/tmp/RtmpdvNc9d/file2cef348f3bde4.csv_sid_9333_9

0 个答案:

没有答案