由于我是R程序员,我想使用R作为一个接口来激发火花,使用sparkR包我在R中安装了spark。
我是sparkR的新手。我想对CSV记录中的特定数据执行一些操作。我正在尝试读取csv文件并将其转换为rdd。
This is the code i did:
sc <- sparkR.init(master="local") # created spark content
data <- read.csv(sc, "/home/data1.csv")
#It throws an error, to use read.table
Data i have to load and convert - http://i.stack.imgur.com/sj78x.png
if am wrong, how to read this data in csv and convert to RDD in sparkR
TIA
答案 0 :(得分:1)
我认为问题是标题行,如果删除此行,它应该可以正常工作。
How do I convert csv file to rdd
- 编辑 -
使用此代码,您可以使用CSV测试Sparkr,但您需要删除CSV文件中的标题行。
lines <- textFile(sc, "/home/data1.csv")
csvElements <- lapply(lines, function(line) {
#line represent each CSV line i. e. strsplit(line, ",") is useful
})
答案 1 :(得分:0)
在最近的SparkR版本(2.0 +)
中read.df(path, source = "csv")
在Spark 1.x
read.df(sc, path, source = "com.databricks.spark.csv")
带
spark.jars.packages com.databricks:spark-csv_2.10:1.4.0
答案 2 :(得分:0)
以下代码将让您阅读带有标题的csv。一切顺利
val csvrdd = spark.read.options(“header”,”true”).csv(filename)