Scala导入TSV

时间:2014-11-04 21:55:48

标签: scala apache-spark

我在Scala中解析TSV文件时遇到了一些问题。以下是对代码执行操作的代码。

var lines = file.map(_.split('\n'))
var nodes = lines.foreach( _.split('\t').map(_(1),_(2)).groupBy(_(1)).reduceByKey(_ + _))

输入

1 a 24
2 a 3
3 b 6

期望的操作

a 27
b 6

我在执行split(' \ t')时遇到错误,因为它不是Array [String]的成员,这很奇怪,因为foreach里面的_应该引用每个元素一次一个。感谢您的帮助

1 个答案:

答案 0 :(得分:2)

首先,foreach的赋值是Unit,所以这不是你想要的。使用不可变的val。还不清楚格式文件是什么,所以不得不在那里得到一个字符串。

val file = "1\ta\t24\n2\ta\t3\n3\tb\t6" 

val lines = file.split("\n")
val nodes = lines.map(_.split("\t")).map(a => (a(1),a(2))).groupBy(_._1).map(a  => (a._1,a._2.map(b => b._2.toInt).sum))
//Map(b -> 6, a -> 27)

这是一个很大的混乱,所以我会试着打破它:

val lines = file.split("\n")          //split string into array of lines
val nodes = lines.map(_.split("\t"))  //split each line into array of strings
  .map(a => (a(1),a(2)))              //get just the second two items from the array as a tuple
  .groupBy(_._1)                      //group by the first item in the tuple
  .map(a  => (a._1,a._2.map(b => b._2.toInt).sum))  //take each tuple and map the second value (an array of strings) into an array of ints and get the sum

如果您不喜欢最终输出的地图,可以使用toList轻松更改地图,或将地图映射到您想要的任何地方。