你好,我试图将一些Twitter数据放入R中的h2o随机森林模型中。我一直收到无法确定的文件类型错误。我在使用Rstudio的R版本1.1.453中。
代码:
library(dplyr)
library(tidyr)
library(ace)
library(h2o)
library(data.table)
hdfs.kinit()
h2oStart()
tweet.dt <- as.data.table(fread(file = "/tech/home/js87549e/ExtractedTweets.csv", col.names = c('Party','Handle','Tweet')))
tweet.dt$outcome <- 0
tweet.dt$outcome[tweet.dt$Party == "Democrat"] <- 1
tweet.dt$outcome <- as.factor(tweet.dt$outcome)
tweet.dt$Tweet <- as.character(tweet.dt$Tweet)
inp.dt <- as.data.table(tweet.dt %>%
mutate(string = strsplit(Tweet, split = " ")) %>%
unnest(string))
inp.dt$string <- as.factor(inp.dt$string)
dat.dt <- as.data.table(inp.dt[,c(4,5)])
inp.hex <- as.h2o(dat.dt)
错误消息:
无法确定文件类型。用于/tech/appl/user/js87549e/tmp/RtmpdvNc9d/file2cef348f3bde4.csv_sid_9333_9