我有一个CSV文件,其中包含一个数据矩阵。该矩阵的第一列包含标签,其他列包含与标签(即第一列)相关联的值。现在我想读取这个CSV文件并将数据放入Scala中的Map [String,Array [String]]。 Map的关键应该是标签(在第一列中),Map值应该是其他值(其余列中的这些值)。要读取CSV文件,我使用opencsv。
val isr: InputStreamReader = new InputStreamReader(getClass.getResourceAsStream("test.csv"))`
val data: IndexedSeq[Array[String]] = new CSVReader(isr).readAll.asScala.toIndexedSeq`
现在,我在IndexedSeq[Array[String]]
中拥有所有数据。我可以在这里使用这种功能方式,还是应该更好地选择迭代方式,因为一次读取所有数据会变得复杂?好吧,现在我需要从这个IndexedSeq创建Map。因此,我将IndexedSeq映射到Tupel[String,Array[String]]
的IndexedSeq,以从其余值中分离标签值,然后从中创建Map。
val result: Map[String, Array(String) = data.filter(e => !e.isEmpty).map(e => (e.head,e.tail)).toMap
这适用于小例子,但是当我用它来读取我的CSV文件的内容时,它会抛出一个java.lang.RuntimeException。我还尝试使用groupBy创建地图或创建多个地图(每行一个),然后将它们减少到一个大地图,但没有成功。我还读了另一篇关于stackoverflow的文章,有人认为toMap的复杂度为O(n²)。我在StackTrace结束时得到了这个(整个Stacktrace很长)。
Exception in thread "main" java.lang.reflect.InvocationTargetException
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:601)
at org.jetbrains.plugins.scala.testingSupport.specs2.JavaSpecs2Runner.runSingleTest(JavaSpecs2Runner.java:130)
at org.jetbrains.plugins.scala.testingSupport.specs2.JavaSpecs2Runner.main(JavaSpecs2Runner.java:76)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:601)
at com.intellij.rt.execution.application.AppMain.main(AppMain.java:120)
Caused by: java.lang.RuntimeException: can not create specification: com.test.MyClassSpec
at scala.sys.package$.error(package.scala:27)
at org.specs2.specification.SpecificationStructure$.createSpecification(BaseSpecification.scala:96)
at org.specs2.runner.ClassRunner.createSpecification(ClassRunner.scala:64)
at org.specs2.runner.ClassRunner.start(ClassRunner.scala:35)
at org.specs2.runner.ClassRunner.main(ClassRunner.scala:28)
at org.specs2.runner.NotifierRunner.main(NotifierRunner.scala:24)
... 11 more
Process finished with exit code 1
有人知道从CSV文件中的数据创建地图的另一种方法吗?
答案 0 :(得分:7)
这对我有用:
import scala.io.Source
Source.fromFile("some_very_big_file").getLines.map(_.split(";")).count(_ => true)
split
在简单记录中分解CSV文件的每一行。 count
仅用于检查文件是否真正被读取。
现在我们可以使用它来读取真实的CSV文件(虽然我只用一个小文件测试它):
scala> val content=Source.fromFile("test.csv").getLines.map(_.split(";"))
content: Iterator[Array[java.lang.String]] = non-empty iterator
scala> val header=content.next
header: Array[java.lang.String] = Array(Elements, Duration)
scala> content.map(header.zip(_).toMap)
res40: Iterator[scala.collection.immutable.Map[java.lang.String,java.lang.String]] = non-empty iterator
这适用于简单的CSV文件。如果你有更复杂的(例如,条目溢出几行),你可能不得不使用更复杂的CSV解析器(例如Apache Commons CSV。但通常,如果aperser也会给你某种迭代器,你可以使用相同的map(... zip ...)
功能。
答案 1 :(得分:1)
你可以跳过元组的中间List
,然后像这样直接构建地图:
val result: Map[String, Array[String]] = data.filter(e => !e.isEmpty).map(e => (e.head,e.tail))(collection.breakOut)
不确定这是否会解决您的问题,但您确实询问是否有其他方法来构建地图。您可以在此处详细了解collection.breakOut
:
答案 2 :(得分:0)
不是你要求的,但是这里是如何使用我自己的狗食来做的:
val data = CsvParser[String,Int,Double].parseFile("sample.csv")
data: org.catch22.collections.immutable.CollSeq3[String,Int,Double] =
CollSeq((Jan,10,22.33),
(Feb,20,44.2),
(Mar,25,55.1))
scala> val lookup=(data._1 zip data).toMap
lookup: scala.collection.immutable.Map[String,Product3[String,Int,Double]] = Map(Jan -> (Jan,10,22.33), Feb -> (Feb,20,44.2), Mar -> (Mar,25,55.1))
scala> lookup("Feb")
res0: Product3[String,Int,Double] = (Feb,20,44.2)