用字符串中的不同类型解析txt

时间:2017-01-15 15:46:26

标签: scala parsing apache-spark cassandra spark-cassandra-connector

我有半结构化数据的txt文件,我必须通过spark-cassandra在cassandra中编写它。但是对于第一个我只在scala中解析的内容。

我的代码:

import java.io.File
import scala.io.Source

object parser extends App {
  val path = "somepath"
  val fileArray = (new java.io.File(path)).listFiles()
   for (file <- fileArray)
    for (line <- Source.fromFile(file).getLines())

那么如何解析每个字符串并获取值以将其放入cassandra? 例如我有(int,text,timestamp,int,text,char,int,text)? 我必须拆分分界线(&#34;&#34;)?把它们放在一个元组中?或者每个都转换成可读格式?

1 个答案:

答案 0 :(得分:0)

你可能做的是将它作为带有分隔符的csv文件处理(&#34;&#34;)?所以让Spark为你解析。

val spark = SparkSession.builder.config(conf).getOrCreate()
val dataFrame = spark.read.option("inferSchema", "true").option("delimiter", " ").csv(csvfilePath)