Sparklyr"嵌入nul in string"收集时

时间:2017-02-20 09:38:54

标签: r apache-spark dplyr sparklyr

在R中,我有一个spark连接和一个DataFrame ddf

library(sparklyr)
library(tidyverse)
sc <- spark_connect(master = "foo", version = "2.0.2")
ddf <- spark_read_parquet(sc, name='test', path="hdfs://localhost:9001/foo_parquet")

由于它并不是很多行,所以我想把它拉进内存以应用一些机器学习魔法。但是,似乎无法收集某些行。

df <- ddf %>% head %>% collect # works fine
df <- ddf %>% collect # doesn't work

第二行代码会引发Error in rawToChar(raw) : embedded nul in string:错误。它失败的列/行有一些字符串数据。由于head %>% collect工作表明某些行似乎失败而其他行按预期工作。

如何解决此错误,有没有办法清除错误?错误究竟意味着什么?

0 个答案:

没有答案