spark scala - 用于计算svd的字符串特征提取

时间:2015-08-17 14:35:54

标签: string scala apache-spark feature-extraction svd

我有这种格式的csv:

doy|uuid|gender|conf|age_range|cat1|cat1score|cat2|cat2score|cat3|cat3score|main_hour_range|main_location|

为了计算svd,我需要一个RowMatrix

val mat:RowMatrix = ... 我应该用这样的东西创造:

val inputData = sc.textFile("my.csv").map{ line =>
  val parts = line.split("\t")
  (parts(0).toLong, parts(1).toInt, parts(2).toDouble...)
}

这是我的问题: 我如何管理我的csv中具有字符串值的功能,考虑到我的矩阵向量需要由数值组成?

  1. 部分(3)是性别,可以是:U(未知)M(男性)F(女性)
  2. 部分(5)是字符串形式的范围:" 19-49"
  3. 部分(13)是通用字符串
  4. 提前致谢

0 个答案:

没有答案