如何在sparkR中读取csv并转换为RDD

时间:2015-03-23 07:34:11

标签: apache-spark rdd

由于我是R程序员,我想使用R作为一个接口来激发火花,使用sparkR包我在R中安装了spark。

我是sparkR的新手。我想对CSV记录中的特定数据执行一些操作。我正在尝试读取csv文件并将其转换为rdd。

This is the code i did:
sc <- sparkR.init(master="local") # created spark content
data <- read.csv(sc, "/home/data1.csv")
#It throws an error, to use read.table

Data i have to load and convert - http://i.stack.imgur.com/sj78x.png

if am wrong, how to read this data in csv and convert to RDD in sparkR

TIA

3 个答案:

答案 0 :(得分:1)

我认为问题是标题行,如果删除此行,它应该可以正常工作。

How do I convert csv file to rdd

- 编辑 -

使用此代码,您可以使用CSV测试Sparkr,但您需要删除CSV文件中的标题行。

lines <- textFile(sc, "/home/data1.csv") 
csvElements <- lapply(lines, function(line) { 
#line represent each CSV line i. e. strsplit(line, ",") is useful 
})

答案 1 :(得分:0)

在最近的SparkR版本(2.0 +)

read.df(path, source = "csv")

在Spark 1.x

read.df(sc, path, source = "com.databricks.spark.csv")

spark.jars.packages  com.databricks:spark-csv_2.10:1.4.0

答案 2 :(得分:0)

以下代码将让您阅读带有标题的csv。一切顺利

val csvrdd = spark.read.options(“header”,”true”).csv(filename)