在R中,我有一个spark连接和一个DataFrame ddf
。
library(sparklyr)
library(tidyverse)
sc <- spark_connect(master = "foo", version = "2.0.2")
ddf <- spark_read_parquet(sc, name='test', path="hdfs://localhost:9001/foo_parquet")
由于它并不是很多行,所以我想把它拉进内存以应用一些机器学习魔法。但是,似乎无法收集某些行。
df <- ddf %>% head %>% collect # works fine
df <- ddf %>% collect # doesn't work
第二行代码会引发Error in rawToChar(raw) : embedded nul in string:
错误。它失败的列/行有一些字符串数据。由于head %>% collect
工作表明某些行似乎失败而其他行按预期工作。
如何解决此错误,有没有办法清除错误?错误究竟意味着什么?