Spark将平面文件映射到类

时间:2016-04-06 12:54:31

标签: scala apache-spark

我在HDFS上有一个包含公司列表的平面文件

CompanyA
CompanyA Decription
April '12
San Fran
11-50
CompanyB
...

我希望将其映射到公司类

case class Company(company: String, 
                   desc: String, 
                   founded: Date, 
                   location: String, 
                   employees: String)

我尝试过以下但是它似乎没有正确映射

val companiesText = sc.textFile(...)

val companies = companyText.map(
   lines => Company(
        lines(0).toString.replaceAll("\"", ""),
        lines(1).toString.replaceAll("\"", ""),
        lines(2).toString.replaceAll("\"", ""),
        lines(3).toString.replaceAll("\"", ""),
        lines(4).toString.replaceAll("\"", ""),
        lines(5).toString.replaceAll("\"", "")
    )
)

我知道我没有在这里正确地做日期,但这不是问题。

0 个答案:

没有答案