Question

我有以下csv内容

123,Out,true,2014-09-30,東芝ライフスタイル　株式会社,null,Web,1234,false,2014-09-21T22:48:28.000+0000

我使用spark-csv

加载了CSV

> df <- read.df(sqlContext, "japanese_char_file.csv", source = "com.databricks.spark.csv", inferSchema = "true")

我正在尝试使用

将此SparkR数据帧转换为R data.frame

temp2bd <- SparkR::collect(df)

它给我以下错误

rawToChar中的错误（字符串）：字符串中嵌入的nul： 'Q \ x9d \ xe9 \ XA4չ\ XBF \ XA4 \ XEB \ 0 * \ 017 \ 032＆GT;'

以下是showDF回复

'+---+---+----+----------+--------------+----+---+----+-----+--------------------+
| C0| C1|  C2|        C3|            C4|  C5| C6|  C7|   C8|                  C9|
+---+---+----+----------+--------------+----+---+----+-----+--------------------+
|123|Out|true|2014-09-30|q\x9d\xe9\xa4չ\xbf\xa4\xeb\0*\017\032>|null|Web|1234|false|2014-09-21T22:48:...|
+---+---+----+----------+--------------+----+---+----+-----+--------------------+\n'

日语字符转换为q\x9d\xe9\xa4չ\xbf\xa4\xeb\0*\017\032>，这似乎导致了此问题。

我遇到了'Embedded nul in string' error when importing csv with fread和'Embedded nul in string' error when importing csv with fread。但没有一个对我有用

我是否需要更改我阅读CSV内容的方式？或者有没有办法在Spark数据帧上运行sed？或者它是SparkR中的一个问题？

我在独立模式下使用Spark 1.5.2

对于日文字符，SparkR :: collect（df）失败

0 个答案: