Question

我有一个CSV文件，其中包含一个数据矩阵。该矩阵的第一列包含标签，其他列包含与标签（即第一列）相关联的值。现在我想读取这个CSV文件并将数据放入Scala中的Map [String，Array [String]]。 Map的关键应该是标签（在第一列中），Map值应该是其他值（其余列中的这些值）。要读取CSV文件，我使用opencsv。

val isr: InputStreamReader = new InputStreamReader(getClass.getResourceAsStream("test.csv"))`  
val data: IndexedSeq[Array[String]] = new CSVReader(isr).readAll.asScala.toIndexedSeq`

现在，我在IndexedSeq[Array[String]]中拥有所有数据。我可以在这里使用这种功能方式，还是应该更好地选择迭代方式，因为一次读取所有数据会变得复杂？好吧，现在我需要从这个IndexedSeq创建Map。因此，我将IndexedSeq映射到Tupel[String,Array[String]]的IndexedSeq，以从其余值中分离标签值，然后从中创建Map。

val result: Map[String, Array(String) = data.filter(e => !e.isEmpty).map(e => (e.head,e.tail)).toMap

这适用于小例子，但是当我用它来读取我的CSV文件的内容时，它会抛出一个java.lang.RuntimeException。我还尝试使用groupBy创建地图或创建多个地图（每行一个），然后将它们减少到一个大地图，但没有成功。我还读了另一篇关于stackoverflow的文章，有人认为toMap的复杂度为O（n²）。我在StackTrace结束时得到了这个（整个Stacktrace很长）。

Exception in thread "main" java.lang.reflect.InvocationTargetException      
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)  
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)  
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)  
    at java.lang.reflect.Method.invoke(Method.java:601)
    at org.jetbrains.plugins.scala.testingSupport.specs2.JavaSpecs2Runner.runSingleTest(JavaSpecs2Runner.java:130)  
    at org.jetbrains.plugins.scala.testingSupport.specs2.JavaSpecs2Runner.main(JavaSpecs2Runner.java:76)  
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)  
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)  
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)  
    at java.lang.reflect.Method.invoke(Method.java:601)  
    at com.intellij.rt.execution.application.AppMain.main(AppMain.java:120)  
    Caused by: java.lang.RuntimeException: can not create specification: com.test.MyClassSpec  
    at scala.sys.package$.error(package.scala:27)  
    at org.specs2.specification.SpecificationStructure$.createSpecification(BaseSpecification.scala:96)   
    at org.specs2.runner.ClassRunner.createSpecification(ClassRunner.scala:64)  
    at org.specs2.runner.ClassRunner.start(ClassRunner.scala:35)  
    at org.specs2.runner.ClassRunner.main(ClassRunner.scala:28)  
    at org.specs2.runner.NotifierRunner.main(NotifierRunner.scala:24)  
    ... 11 more  
    Process finished with exit code 1

有人知道从CSV文件中的数据创建地图的另一种方法吗？

Answer 1

这对我有用：

import scala.io.Source
Source.fromFile("some_very_big_file").getLines.map(_.split(";")).count(_ => true)

split在简单记录中分解CSV文件的每一行。 count仅用于检查文件是否真正被读取。

现在我们可以使用它来读取真实的CSV文件（虽然我只用一个小文件测试它）：

scala> val content=Source.fromFile("test.csv").getLines.map(_.split(";"))
content: Iterator[Array[java.lang.String]] = non-empty iterator

scala> val header=content.next
header: Array[java.lang.String] = Array(Elements, Duration)

scala> content.map(header.zip(_).toMap)
res40: Iterator[scala.collection.immutable.Map[java.lang.String,java.lang.String]] = non-empty iterator

这适用于简单的CSV文件。如果你有更复杂的（例如，条目溢出几行），你可能不得不使用更复杂的CSV解析器（例如Apache Commons CSV。但通常，如果aperser也会给你某种迭代器，你可以使用相同的map(... zip ...)功能。

Answer 2

你可以跳过元组的中间List，然后像这样直接构建地图：

val result: Map[String, Array[String]] = data.filter(e => !e.isEmpty).map(e => (e.head,e.tail))(collection.breakOut)

不确定这是否会解决您的问题，但您确实询问是否有其他方法来构建地图。您可以在此处详细了解collection.breakOut：

Scala: List[Tuple3] to Map[String,String]

Answer 3

不是你要求的，但是这里是如何使用我自己的狗食来做的：

val data = CsvParser[String,Int,Double].parseFile("sample.csv")
data: org.catch22.collections.immutable.CollSeq3[String,Int,Double] = 
CollSeq((Jan,10,22.33),
        (Feb,20,44.2),
        (Mar,25,55.1))

scala> val lookup=(data._1 zip data).toMap
lookup: scala.collection.immutable.Map[String,Product3[String,Int,Double]] = Map(Jan -> (Jan,10,22.33), Feb -> (Feb,20,44.2), Mar -> (Mar,25,55.1))

scala> lookup("Feb")
res0: Product3[String,Int,Double] = (Feb,20,44.2)

product-collections

如何读取CSV文件并将其内容放入Scala中的Map？

3 个答案: