对于日文字符,SparkR :: collect(df)失败

时间:2016-03-18 13:04:00

标签: r csv apache-spark sparkr

我有以下csv内容

123,Out,true,2014-09-30,東芝ライフスタイル 株式会社,null,Web,1234,false,2014-09-21T22:48:28.000+0000

我使用spark-csv

加载了CSV
> df <- read.df(sqlContext, "japanese_char_file.csv", source = "com.databricks.spark.csv", inferSchema = "true")

我正在尝试使用

将此SparkR数据帧转换为R data.frame
temp2bd <- SparkR::collect(df)

它给我以下错误

  

rawToChar中的错误(字符串):字符串中嵌入的nul:   'Q \ x9d \ xe9 \ XA4չ\ XBF \ XA4 \ XEB \ 0 * \ 017 \ 032&GT;'

以下是showDF回复

'+---+---+----+----------+--------------+----+---+----+-----+--------------------+
| C0| C1|  C2|        C3|            C4|  C5| C6|  C7|   C8|                  C9|
+---+---+----+----------+--------------+----+---+----+-----+--------------------+
|123|Out|true|2014-09-30|q\x9d\xe9\xa4չ\xbf\xa4\xeb\0*\017\032>|null|Web|1234|false|2014-09-21T22:48:...|
+---+---+----+----------+--------------+----+---+----+-----+--------------------+\n'

日语字符转换为q\x9d\xe9\xa4չ\xbf\xa4\xeb\0*\017\032>,这似乎导致了此问题。

我遇到了'Embedded nul in string' error when importing csv with fread'Embedded nul in string' error when importing csv with fread。但没有一个对我有用

我是否需要更改我阅读CSV内容的方式? 或者有没有办法在Spark数据帧上运行sed? 或者它是SparkR中的一个问题?

我在独立模式下使用Spark 1.5.2

0 个答案:

没有答案