我有以下csv内容
123,Out,true,2014-09-30,東芝ライフスタイル 株式会社,null,Web,1234,false,2014-09-21T22:48:28.000+0000
我使用spark-csv
加载了CSV> df <- read.df(sqlContext, "japanese_char_file.csv", source = "com.databricks.spark.csv", inferSchema = "true")
我正在尝试使用
将此SparkR数据帧转换为R data.frametemp2bd <- SparkR::collect(df)
它给我以下错误
rawToChar中的错误(字符串):字符串中嵌入的nul: 'Q \ x9d \ xe9 \ XA4չ\ XBF \ XA4 \ XEB \ 0 * \ 017 \ 032&GT;'
以下是showDF回复
'+---+---+----+----------+--------------+----+---+----+-----+--------------------+
| C0| C1| C2| C3| C4| C5| C6| C7| C8| C9|
+---+---+----+----------+--------------+----+---+----+-----+--------------------+
|123|Out|true|2014-09-30|q\x9d\xe9\xa4չ\xbf\xa4\xeb\0*\017\032>|null|Web|1234|false|2014-09-21T22:48:...|
+---+---+----+----------+--------------+----+---+----+-----+--------------------+\n'
日语字符转换为q\x9d\xe9\xa4չ\xbf\xa4\xeb\0*\017\032>
,这似乎导致了此问题。
我遇到了'Embedded nul in string' error when importing csv with fread和'Embedded nul in string' error when importing csv with fread。但没有一个对我有用
我是否需要更改我阅读CSV内容的方式?
或者有没有办法在Spark数据帧上运行sed
?
或者它是SparkR中的一个问题?
我在独立模式下使用Spark 1.5.2