如何读取CSV文件并将其内容放入Scala中的Map?

时间:2013-06-21 14:46:24

标签: scala csv map

我有一个CSV文件,其中包含一个数据矩阵。该矩阵的第一列包含标签,其他列包含与标签(即第一列)相关联的值。现在我想读取这个CSV文件并将数据放入Scala中的Map [String,Array [String]]。 Map的关键应该是标签(在第一列中),Map值应该是其他值(其余列中的这些值)。要读取CSV文件,我使用opencsv。

val isr: InputStreamReader = new InputStreamReader(getClass.getResourceAsStream("test.csv"))`  
val data: IndexedSeq[Array[String]] = new CSVReader(isr).readAll.asScala.toIndexedSeq`

现在,我在IndexedSeq[Array[String]]中拥有所有数据。我可以在这里使用这种功能方式,还是应该更好地选择迭代方式,因为一次读取所有数据会变得复杂?好吧,现在我需要从这个IndexedSeq创建Map。因此,我将IndexedSeq映射到Tupel[String,Array[String]]的IndexedSeq,以从其余值中分离标签值,然后从中创建Map。

val result: Map[String, Array(String) = data.filter(e => !e.isEmpty).map(e => (e.head,e.tail)).toMap

这适用于小例子,但是当我用它来读取我的CSV文件的内容时,它会抛出一个java.lang.RuntimeException。我还尝试使用groupBy创建地图或创建多个地图(每行一个),然后将它们减少到一个大地图,但没有成功。我还读了另一篇关于stackoverflow的文章,有人认为toMap的复杂度为O(n²)。我在StackTrace结束时得到了这个(整个Stacktrace很长)。

Exception in thread "main" java.lang.reflect.InvocationTargetException      
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)  
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)  
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)  
    at java.lang.reflect.Method.invoke(Method.java:601)
    at org.jetbrains.plugins.scala.testingSupport.specs2.JavaSpecs2Runner.runSingleTest(JavaSpecs2Runner.java:130)  
    at org.jetbrains.plugins.scala.testingSupport.specs2.JavaSpecs2Runner.main(JavaSpecs2Runner.java:76)  
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)  
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)  
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)  
    at java.lang.reflect.Method.invoke(Method.java:601)  
    at com.intellij.rt.execution.application.AppMain.main(AppMain.java:120)  
    Caused by: java.lang.RuntimeException: can not create specification: com.test.MyClassSpec  
    at scala.sys.package$.error(package.scala:27)  
    at org.specs2.specification.SpecificationStructure$.createSpecification(BaseSpecification.scala:96)   
    at org.specs2.runner.ClassRunner.createSpecification(ClassRunner.scala:64)  
    at org.specs2.runner.ClassRunner.start(ClassRunner.scala:35)  
    at org.specs2.runner.ClassRunner.main(ClassRunner.scala:28)  
    at org.specs2.runner.NotifierRunner.main(NotifierRunner.scala:24)  
    ... 11 more  
    Process finished with exit code 1

有人知道从CSV文件中的数据创建地图的另一种方法吗?

3 个答案:

答案 0 :(得分:7)

这对我有用:

import scala.io.Source
Source.fromFile("some_very_big_file").getLines.map(_.split(";")).count(_ => true)

split在简单记录中分解CSV文件的每一行。 count仅用于检查文件是否真正被读取。

现在我们可以使用它来读取真实的CSV文件(虽然我只用一个小文件测试它):

scala> val content=Source.fromFile("test.csv").getLines.map(_.split(";"))
content: Iterator[Array[java.lang.String]] = non-empty iterator

scala> val header=content.next
header: Array[java.lang.String] = Array(Elements, Duration)

scala> content.map(header.zip(_).toMap)
res40: Iterator[scala.collection.immutable.Map[java.lang.String,java.lang.String]] = non-empty iterator

这适用于简单的CSV文件。如果你有更复杂的(例如,条目溢出几行),你可能不得不使用更复杂的CSV解析器(例如Apache Commons CSV。但通常,如果aperser也会给你某种迭代器,你可以使用相同的map(... zip ...)功能。

答案 1 :(得分:1)

你可以跳过元组的中间List,然后像这样直接构建地图:

val result: Map[String, Array[String]] = data.filter(e => !e.isEmpty).map(e => (e.head,e.tail))(collection.breakOut)

不确定这是否会解决您的问题,但您确实询问是否有其他方法来构建地图。您可以在此处详细了解collection.breakOut

Scala: List[Tuple3] to Map[String,String]

答案 2 :(得分:0)

不是你要求的,但是这里是如何使用我自己的狗食来做的:

val data = CsvParser[String,Int,Double].parseFile("sample.csv")
data: org.catch22.collections.immutable.CollSeq3[String,Int,Double] = 
CollSeq((Jan,10,22.33),
        (Feb,20,44.2),
        (Mar,25,55.1))

scala> val lookup=(data._1 zip data).toMap
lookup: scala.collection.immutable.Map[String,Product3[String,Int,Double]] = Map(Jan -> (Jan,10,22.33), Feb -> (Feb,20,44.2), Mar -> (Mar,25,55.1))

scala> lookup("Feb")
res0: Product3[String,Int,Double] = (Feb,20,44.2)

product-collections